搜索引擎如何判断网页核心内容

百度谷歌等搜索引擎对网页核心内容的判断大概是首先将爬回的网页与同域名、同目录、同文件名格式的页面做对比,去除相似的部分,例如导航区、版权信息区及固定位置的广告;然后去除密度大的链接区,例如相关文章;最后取<td>、<div>、<p>等容器中的正文。因此我们似乎应该尽量使用规范的容器标记例如<td>、<div>、<p>装载尽量充实且主题明确的正文,以供搜索引擎正确判断核心内容从而进行收录。

(2008年11月24日)

发表评论

电子邮件地址不会被公开。 必填项已用*标注