隐性语义检索(LSI)

用 google 进行搜索的时候,当你在关键词前面加上“~”这个符号,得到的搜索结果的数量可能会增加很多。例如搜索 thinkpad 得到的结果数是3270万,而搜索 ~thinkpad 得到的结果却是6.13亿。后者中的结果有的并不含有 thinkpad ,而只是含有 IBM 或者 T20 等等。这便是隐性语义检索的结果,也就是连同与关键词语义相近的词也一并进行了搜索。

那么 google 为什么认为 thinkpad 能与IBM 等词具有相近语义的关系呢?隐性语义检索的原理在这篇文章中被描述得相当复杂。其实简单说来就是搜索引擎不再像以前一样只对各个文档独立列词索引,而同时要对每个网站的多个文档的集合进行内容分析,如果某些词语总是能形影不离地同时出现在不同的文档中,则认为它们彼此是相关的,即具有语义相似性,从而建立起相关词词库。

但搜索 ~IBM 时并不出现含有 thinkpad 或 T20 的结果。这说明词语之间的相关关系并不是双向可逆的。也即在进行相关词库建立的过程中,发现在出现 IBM 的文档中同时出现 thinkpad 的概率不如在出现 thinkpad 的文档中同时出现 IBM 的概率高,而后者的概率高于了成为相关词的阈值,前者没有,于是得到了 IBM 与 thinkpad 相关但 thinkpad 与 IBM 不相关的结论。

(2008年11月26日)

发表评论

电子邮件地址不会被公开。 必填项已用*标注