搜索引擎如何判断网页核心内容

百度谷歌等搜索引擎对网页核心内容的判断大概是首先将爬回的网页与同域名、同目录、同文件名格式的页面做对比,去除相似的部分,例如导航区、版权信息区及固定位置的广告;然后去除密度大的链接区,例如相关文章;最后取<td>、<div>、<p>等容器中的正文。因此我们似乎应该尽量使用规范的容器标记例如<td>、<div>、<p>装载尽量充实且主题明确的正文,以供搜索引擎正确判断核心内容从而进行收录。

(2008年11月24日)

关于用户的搜索意图

做一个好的搜索引擎,要学着去分析用户的搜索意图(intention of SE users)。例如关键词中含有“下载”的多是说明用户想要的结果中包括下载链接。下面是某人对国人搜索意图的分类统计:

32% 直接搜索网站
31% 资源和下载型
16% 信息型
13% 色情类
4%   财经股票类
4%   商业相关(B2C,C2C,以及有可能产生消费的流量)

直接搜索网站的流量竟然占到三成多,这或许说明用户还是比较愿意到自己曾经见过或听过的但记不住域名的网站中去寻找信息。对这一点的认识,谷歌比百度做得好多了。例如我输入南京六中,谷歌首先把南京六中的官方网站告诉我,而在百度,翻半天都找不到,甚至我又输入“南京六中 网站”也不能在前几页能看见。

(2008年11月24日)

利用开心网树立个人品牌

越来越多的人开始使用开心网,就像当年大家开始使用QQ一样,逐渐成为一种习惯。在开心网上你只能看见你的好友的详细信息或者你的好友的好友的信息,更多的则几乎看不见。好友多是熟人。因此大家几乎都使用实名。在开心网上大家都是坦诚的真实的,极少有伪装和欺骗。于是你应该尽量毫无保留的暴露自己的兴趣、爱好,尤其是特长。这是一个个人品牌树立的绝佳平台,略熟的好友会发现并挖掘你。更多更好的机会会因此亲睐你。

(2008年11月23日)

使用蚂蚁互动为网站用户提供免费的语音服务

在网站上发现感兴趣的商家的时候,可能需要直接用电话进行联系。400电话实现了商家替用户支付长途话费的愿望,但并非每个商家都开通得起400电话。而互动蚂蚁提供的语音服务不仅向商家提供便宜的400电话,还可以让商家帮用户掏所有的话费,这对网站的用户而言,将更进一步提高与商家进行通话的意愿。爱帮网泡泡网等平台类网站使用了互动蚂蚁的网站总机中国肝病网海西美容网等服务性公司主页使用了蚂蚁互动的e呼通。用户在访问这类网站时,可以直接给拨打400电话到商家,也可以输入自己的号码,等待电话响起,完全免费地和商家通话。此外还有电话会议呼叫广告两个服务。前者用于公司内部召开电话会议,公司为员工的话费买单;后者用于投放广告的广告主和展示广告的媒体,媒体将可以分得佣金。

(2008年11月12日)

人肉搜索引擎

所谓搜索引擎,就是一种通过关键词搜索网页的工具,比如百度和Google等。人肉搜索引擎,顾名思义,它仍然是一种针对某个问题或者事件抛出的问题,最终寻找出最佳答案的搜索机制,但这个术语中的“人肉”一词,在掺杂着些许黑色幽默的同时,也准确地表明了这种搜索方式的特点:搜索行为的原动力,不再像传统的搜索方式那样仅仅依靠某个网络程序或者冰冷的互联网资料库,而是更多地靠无数有着真实血肉之躯的网民的亲身参与,由他们在某个随时可能参与进来的时间,用自身的知识、经验、信息渠道,向提问者送上部分答案,再由其他网友补充、完善,直至最后得出确切的答案。比方轰动一时的“虐猫事件”,先是某个网友在曝光的视频里,发现某个建筑物是东北某地。这个答案一出,立马引发了东北网友的寻找热情,很快,有网友将该建筑物锁定在呼兰县……就这样一步接一步,最终找到虐猫女主角。

(2008年11月5日)

“E都市”与“都市圈”

开始了解三维地图,是在2007年初,当时发现了杭州阿拉丁公司推出的“E都市”,顿感惊喜,并以文作证。第一次看见这样的精美而庞大的三维地图,好奇于其制作过程,还专门去寻求了答案。记得当时大概只有北京、成都等10来个城市。北京只制作了二环内的区域,且精度不及成都等城市。特想看看重庆,看看这个山城在三维地图上是如何起伏的,可是没有找到。

最近又发现了另一个三维地图网站——广州亿动公司的“都市圈”,简单了解后得知它是去年才开始制作,起码在今年几个月前才推出的。其官方的一个Flash短片《献给辛苦的采集员MV》记录了2007年夏季采集员们在广州大街小巷采集信息的艰辛过程。Flash制作的当时他们已经完成了广州的采集工作,正酣睡在开往北京的硬座火车上,他们即将开始对北京的人工大扫描。

都市圈上的北京地图已经基本完成,并且特别照顾了奥运会,对奥运会的场馆无论离市中心多远都专门进行了制作。而此时的E都市也比去年增加了很多城市,原有的城市也继续在扩大范围,例如北京的覆盖范围也已远远不止于二环。重庆终于也有了,遗憾的是,三维地图上的重庆,是个平原。

以北京为例对比这两个三维地图网站,不同的地方很多。都市圈的数据很新,除了奥运场馆,其它刚刚新建的楼房也都及时体现,而在E都市中,依然只能看见一片正在施工的工地。但E都市中对各个楼宇的标示更加准确,对有些地方例如北京科技大学内的每一座楼的楼号都进行了准确的标示,另外很多楼宇上面的字牌和广告牌也清晰可见。

至少可以得知这两个网站的数据并没有相互共享,如此巨大的规模也丝毫阻止不了他们彼此的重复投入,足以看出他们对城市三维地图在未来的应用和盈利前景倍加看好。E都市中的很多城市据说是卖给了当地政府机关,由他们投资,并经营其中的各种广告商机,如杭州的地图里面,已经热闹非凡,楼宇间到处可以看到氢气球吊起的巨幅广告。

一个地理信息科学专业的朋友对此并不感觉高深,称其只是2.5D,还算不上三维,还对两个网站的投影问题进行了分析,我是一点也看不懂。

(2008年9月11日)

火爆的开心网

大约两个月前,受好友陈小川的邀请,我注册了开心网。跟现在的很多新注册开心网的朋友一样,第一次进去,草草一看菜单,并未发现什么好玩的东西;通过陈小川的好友,能看见几个认识的人,但数量很少,他们也都没有贡献到网上什么信息,于是我很快关闭了网页。之后很多天,都不曾再想起这个网站来,逐渐将它遗忘。直到半个月后和中国雅虎的产品经理赵蔚的一次对话。

这个从小学就开始和我建立了深厚友谊的朋友,赵蔚在那天和我一起吃饭并谈论关于产品经理职业时,提起了开心网。他说里面有些如争车位的小游戏,特别适合于熟人之间玩耍,尤其白领,工作累了就上去玩几分钟,非常不错,于是现在受到很多人的欢迎,并且熟人之间推广,且多是实名注册,人气上升极快。于是我当晚第二次登录了开心网,从网页左下脚发现了很不起眼的“添加组件”,然后开始试用各种组件,包括争车位、朋友买卖、姓名缘分等等。

很多小组件或叫做小游戏,的确很有意思,尤其和熟人之间,让人时不时的会想起上去做一些简单的操作,以此方式在减缓工作压力的娱乐的同时,保持和朋友的联系。因此一旦体会到开心网乐趣的人,一般就会主动地去邀请自己的同学、同事、朋友加入进来,正好它又提供了多种便利的邀请方式。

于是这之后我发现,身边的朋友突然间越来越多地加入了开心网的实名制用户的队伍。也似乎在一夜之间,我所在部门的同事们都现身在了开心网上面。并且,我通过好友的好友,又找到了很多多年不曾联系的朋友。对于那些常年在msn中不曾说话的准熟人们,也通过开心网上的小游戏,距离被拉近,而且让你感觉到,有了开心网,即使不特意联系,他们也永远就在你的身边。一种非常舒服、安全、温暖的感觉。

就在这么短暂的数月时间内,开心网像病毒一样迅速在大陆各地尤其是大城市的白领人群中蔓延,其Alexa曲线呈直线上升,现已进入全球前200名,开始超越SNS网站的老大校内网。我偶尔在公司内串门,到处能见到同事浏览开心网的壮观景象。于是在大约上周四,媒体上开始报道开心网逐渐被各大公司屏蔽,以保证员工的工作效率。第二天,拥有数千人规模的慧聪网,也再也忍受不了其员工对开心网的中毒至深,立马封掉。之后不少人只能托在别的公司的朋友时不时地换账号登录上去帮忙移动一下小车,免得被贴条且交路费。

这许多年来,已经很少出现一个网站能引起如此广范围的关注和追捧。我觉得,开心网将如同QQ/MSN一样,作为熟人间保持联系的一种工具,一旦多数熟人都开始使用了,就很难让人放弃,也很难再有第二个同类的产品能够替代,除非你和你的所有好友都能同时迁移过去。就像QQ之后的Gtalk、百度Hi,你去了,却没几个好友,所以勤快的人尝试一下也都不去了。

(2008年9月8日)

诡异的MySQL中文乱码

mysql的中文乱码是诡异的
两地的mysql服务器结合着jsp页面和mysql-front
使我不得不对多种编码组合进行试验
最终的一个较令自己满意的方案是
远程linux上的mysql设为utf8
jsp页面与数据库连接用utf8
本地windows上的mysql设为gb2312以将就mysql-front
从windows的mysql往linux的mysql导数据时
使用mysqldump –default-character-set=utf8 database [table] > some.sql
而从linux备份给windows时不需要额外转换
另外本地的utf8的jsp操作gb2312的mysql也没有问题
原因可能是windows上的mysql是5.*而linux上只是4.*
高版增强了自动转换或兼容的能力

(2007年6月16日)

算法

  1. 做人要谦虚,忍让,多请教别人,多称赞别人,这样的人大家都很喜欢。
  2. 决不能占小便宜,甚至应该多找些眼前亏来吃,小亏你先吃了,大亏别人就不好意思再让给你了。
  3. 要保持投资意识,有长线也要有短线,入不敷出不见得是亏损,能挣大钱时挣了小钱就是亏。
  4. 亏损主要源于失算,而失算是因为算得还不够充分,多算勤算能升级CPU与内存,改进算法主要靠事后分析总结,这是关键也是捷径。
  5. 程序精在算法,人生贵在思想。勤读程序,优化算法;多品人生,升华思想。

(2007年4月26日)

討厭看到用0代替〇

現在的拼音輸入法已經可以完全以詞語、短語甚至句子為單位輸入中文,但我搞不懂為什么還有越來越多的人喜歡把類似“二〇〇七”這樣的詞拆成漢字+數字+漢字的模式輸入成看起來極其畸形而且不規范的“二00七”,也有不少人喜歡用大寫的“〇”即“零”來代替“〇”而成為“二零零七”這樣的蹩腳不勻稱的形式。從〇到九這十個漢字還是非常常用的,因此有些懷念起紫光拼音輸入發的i+數字鍵,i+0得〇,i+1得一……i+9得九。

(2007年4月5日北京)

关于输入法

真正意識上開始接觸電腦并長時間上網聊天打字已經是大一時候了,那時使用的Windows系統中自帶的智能ABC,當時清華的同學已經開始用紫光拼音,并說紫光多么多么的好。我因為當時感覺智能ABC已經夠快了,于是始終沒有去嘗試紫光。直到很久以后試著使用了紫光之后才突然間發現智能ABC相對而言是多么的弱智,翻頁不方便,詞庫極小無比,幾乎沒有記憶功能等等,從此便不到迫不得已比如臨時用一下別人的機器的時候是絕對不會再使用智能ABC的了。

這件小事情給了我很大的啟發,很多事情因為自己熟悉了就不愿意去嘗試新的,總固執地以為現在的已經最好了,而嘗試過后才發現起初的想法錯了,人的惰性往往就是這樣養成的。于是此后每當有新的輸入法推出并且受到網友好評的時候,我會特意花精力去下載、試用。去年搜狗拼音我就是第一時間去下載,然后感覺比紫光好一些,例如穩定、網絡同步流行詞庫等,于是就用搜狗拼音替代了已經使用了有五六年之久的紫光。昨天,谷歌推出了谷歌拼音,我也第一時間下載了試用,感覺不錯,相對于搜狗又新增了一些比較實用的功能,例如將個人詞庫自動保存到gmail帳號中、英文輸入提示、不知道發音的字可以輸入筆畫等。

從昨天開始我已經放棄搜狗拼音改用谷歌拼音了。并試著用用繁體字,加強一下自己對繁體字的敏感度。另外,谷歌拼音中提供了可供選擇的多種雙拼方案,本想就這個機會也學一下雙拼,畢竟每天的工作也好娛樂也好打字的時間占了絕對大的比例,雙拼輸入可以提速不少,但是最受歡迎的自然碼雙拼在谷歌拼音輸入法中存在一個由中國IT博客教父洪波發現的缺陷——er這個拼音對應的漢字例如“而”“二”“兒”等都無法輸入。我又不想記一套不是最受歡迎的雙拼規則,于是決定暫時放棄學習雙拼,直到google修正這個缺陷,相信這個日子的到來應該不久,因為這個缺陷對于google而言就是舉手之勞。

今天專門調查了一下,像我7年前一樣認為智能ABC已經很完美的朋友居然還不再少數,當然這其中一個他們的理由我覺得還是有道理的,就是智能ABC是Windows系統自帶的輸入法,不怕換電腦。

(2007年4月5日北京)

管理至上

伟大的祖国要开始建造大飞机了,这将是比去年的歼-10更加振奋人心的消息,提了20多年的事情终于就要开干了,10余年后我们将乘坐自己的大飞机在云际遨游。曾经我们为波音制造舱门就大肆宣传,如今要建造整个大飞机将是多少研究所多少零部件生成厂商的共同成果啊!无数多个零部件要组成一个大飞机,没有一个人能懂得这所有的一切,技术本身在管理这个词的面前也变得不再那么高不可攀,也因此由于管理问题而告失败的案例屡屡发生在国外,伟大的祖国将发挥社会主义优越性充分调动全国各方面力量完成这一伟大神圣的任务。

(2007年3月27日北京)

长尾理论的艺术

今天把《长尾理论》看完了,这真是一本难得的好书,刚刚看完开头和结尾部分的时候,感觉自己什么都懂了,于是以为全书可能会很啰嗦,不料一章接着一章,章章深刻而充满思维的乐趣。

经济学绝对是一门艺术,一门结合了多项学科的艺术。摆在每个人面前是同样的现象和数据,专家却看到了不一样的奥妙。作者深入浅出的文字,撬动起我大脑的上下左右,教会我同时激活数学哲学心理学的细胞。

同一个现象,可有不同的理解,不同的现象,更存在相似的规律。于是世间万物彼此联系,千丝万缕。我们观察现象,分析本质,总结规律,得到的便是抽象后的理论。长尾是理论,更是哲学,我曾有的那么多不解与迷惑,竟都通过运用长尾理论的本身或思维方式得到了不错的答案。

(2007年3月20日北京)

E都市三维地图的制作

在制作上,和GoogleEarth一样采用了航拍和卫星地图,然后用激光扫描建筑物的高度和宽度不同,“土枪土炮”的E都市使用的是地理信息系统(GIS)平面地图,然后通过人工采集方式拍照,建模和上网。为了在地图上清楚地标注出每一栋楼的准确信息,阿拉丁公司的素材部不得不每天奔波在各条道路上。通常,每一个经过专业训练的工作人员,要拍摄到楼宇3个面以上的照片,并尽可能获得楼宇的真实名称,而不是“马马虎虎地将楼顶上的广告牌名等同为楼宇名”。之后,制作部将采集回的数据、表格和照片,还原到一个模型的环境,再利用技术部开发的后台管理软件,将各个孤立的单视角3D模型无缝集成在一起后,移植到IE游览器里面,用户就可以进行交互式的访问了。E都市的更多详细介绍在这里

(2007年2月13日北京)

我看“百度搜藏”

头个星期末,NEC中国研究院的李工告诉我百度即将推出了网络收藏夹,还发了地址给我,当时还不能使用,只能进入首页了解个梗概。头两天我在百度知道的首页看见了“百度知道可以搜藏了”的字样,于是赶紧进入百度搜藏看个究竟。

早在两年前,中国就出现了首个网摘站点——365key,其宗旨是发现、收藏、分享,我顿时就喜欢上了这个实用的工具。随后,web2.0的概念开始提出并被广泛讨论和追捧。模仿365key的网摘站点如雨后春笋一个接一个地出现,但几乎千篇一律,没有多少新意。这其中仅仅新浪的网摘工具新浪vivi引起了我的兴趣,并使我于一年多前放弃了365key,投奔新浪vivi,并一直使用至今。

365key之后出现了很多跟风的网摘站点,但只有新浪vivi让我驻足,因为新浪是有规模有势力有品牌的门户网站;新浪vivi之后我就专心使用新浪vivi,直到一年多后的今天,百度搜藏的上线,我不仅驻足,还打算说几句,因为百度是门户的门户。

早在上周刚刚看见“百度搜藏”这4个汉字的时候,我就突然间有感想发。它的网摘不叫“收藏”,而叫“搜藏”,是“搜索”+“收藏”,首先这个名字就取得有创意,相对于其他网摘站点,它也最有资格叫这个名字,因为它是百度的,百度是搞搜索的,搞搜索的百度推出网络收藏夹,具有得天独厚的优势,当然应该叫“搜藏”而非“收藏”!

百度的战略很成功,其产品策划也很出色。它专注地研制着它的中文搜索引擎和以此为技术核心和应用基石的开放型网络社区,构建机器搜索与人肉搜索互补互利的中文搜索巨擎!

百度一并推出了4种快捷搜藏方式:

  1. 通过鼠标右键菜单快速搜藏
  2. 通过浏览器快捷链接进行搜藏
  3. 通过百度搜霸快速添加搜藏
  4. 通过在网页嵌入链接快速搜藏

另外,百度搜藏的界面、功能、速度、稳定性、易用性等诸多方面都是其他网摘站点所不能比及的,相信大多网摘使用者都会逐渐改用百度搜藏,也希望不曾使用过网摘工具的朋友也来试一试,它会给你的工作、学习带来极大的方便

(2006年11月30日北京万寿路)

自动显示并滚动的网页左右广告条

JAVAScript是个很有意思的小程序语言,编写和测试都不需要太动干戈,是很便利的一种锻炼思维和记忆的工具。这是一段以前帮朋友写的代码,今天朋友又找到我帮他改成另外一个版本,因此再次见到两年以前自己亲手一个字符一个字符敲打出来的代码。好久不亲自编写JS了,今天看见了有一些亲切,兴许日后自己还会用到,贴出来,也分享给大家。

/*
自动根据客户端窗口宽度判断是否显示并且随窗口滚动的网页左右广告条
参数说明:
outerWidth:窗口临界宽度,超过此宽度时显示广告条,否则不显示
innerWidth:页面内容宽度
o_top:广告条上边界距离窗口上边界的距离
o_width:广告条宽度
o_id:广告条id
place:广告条位置,left表示左边 right表示右边
注意:若同时设置多个广告条时,各处outerWidth、innerWidth参数必须保持一致
如果不需要自动滚动,则将“随窗口滚动的高度设置”那一行中document.body.scrollTop删除,同时删除setTimeout那一行。
*/
function move(outerWidth,innerWidth,o_top,o_width,o_id,place){
if(document.body.clientWidth < outerWidth){
document.all(o_id).style.display = “none”;
}
else{
document.all(o_id).style.display = “block”;
document.all(o_id).style.top = document.body.scrollTop + o_top; //随窗口滚动的高度设置
if(place==”left”){
document.all(o_id).style.left = document.body.clientWidth/2 – o_width/2 – innerWidth/4 – outerWidth/4;
}
else{
document.all(o_id).style.left = document.body.clientWidth/2 – o_width/2 +   innerWidth/4 + outerWidth/4;
}
}
setTimeout(“move(“+outerWidth + “,” + innerWidth + “,” + o_top + “,” + o_width + “,'” + o_id + “‘,'” + place + “‘);”,25); //自动滚动
}

(2006年7月28日北京白石桥)

网站改版时的一种新旧版过渡方案

网站改版时,需要考虑一个周全的过渡方案,其中不容忽视的一点就是对旧版的处理问题。即使借助完美的数据迁移方案可以使新版从内容上完全取代旧版,但我们仍然不应该立即彻底废除掉旧版,因为:

  1. 网民有可能通过浏览器收藏夹或网摘工具收藏了旧版的很多URL;
  2. 搜索引擎可能记录了旧版的很多URL;
  3. 其它网站页面可能有很多对旧版页面的链接。

因此此时让旧版下线,大部分链接也就失效了,用户以为网站不复存在了,流量突然减少,排名下降,且影响长久。于是新旧版的过渡应该尽量达到下面的要求:

  1. 曾有的链接地址仍然有效;
  2. 即使用户去了旧版,也要尽量把用户带向新版;
  3. 避免用户在旧版发布数据。

下面是一个实例,网站www.abc.cn新版即将上线,我们大概需要做这样一些工作:

  1. 新版开发中,定义404错误(找不到网页)处理程序,将找不到网页的URL中的www替换为www1,然后重定向。
  2. 在abc.cn域名管理平台中新建一条DNS的A记录:www1.abc.cn,指向旧版主站服务器。
  3. 新版上线时,将A记录www.abc.cn修改为指向新版主站服务器。
  4. 关闭旧版的用户注册、登录和发布信息的入口。旧版中对首页的链接全部改为绝对路径www.abc.cn。
  5. 一定时间(例如2个月)后,修改新版的404错误处理程序,不再重定向到旧版对应页面,而是重定向新版某页面,比如提示“您访问的页面不存在”,并自动跳转到新版首页。
  6. 同时进入abc.cn域名管理平台,删除A记录www1.abc.cn,彻底废除旧版的可访问性。完成新旧版的过渡。

自定义404错误处理程序的具体方法如下。首先制作error404.html,新建错误处理页面error404.html,在<body></body>之间编写如下代码:

<script language=”javascript”>
var url_host=document.location.host;//获取主机名,例如www.abc.cn
var url=escape(document.location);//获取URL串,例如http://…/…/208.html
var url_new=url.replace(url_host,”www1.abc.cn”);
window.location=url_new;//浏览器窗口重定向
</script>

指定Apache错误处理文件。在Appache2/conf/httpd.conf文件中自定义错误处理程序,指向刚才制作的error404.html。

# Customizable error responses come in three flavors:
# 1) plain text 2) local redirects 3) external redirects
#
# Some examples:
#ErrorDocument 500 “The server made a boo boo.”
#ErrorDocument 404 /missing.html
#ErrorDocument 404 “/cgi-bin/missing_handler.pl”
ErrorDocument 404 /… /error404.html
#ErrorDocument 402 http://www.example.com/subscription_info.html

指定Tomcat错误处理文件。在web.xml中添加如下代码:

<error-page>
<error-code>404</error-code>
<location>/../error404.html</location>
</error-page>

(2006年3月6日北京白石桥)