网站也有头像,它的名字叫Favicon

今天才知道浏览器地址栏中网址前面的独特的图标有一个专业名称叫做网站头像,英文名favicon,为favorite-icon的缩写。因为它更主要的作用是当你收藏这个网站的时候,其图标将让这个网站与收藏夹中的其它网站明显不同。随着这个应用的逐步普及,现在不光 windows 的收藏夹在收藏网址的时候显示favicon,google的个人账户中自定义的链接也会自动捕捉其对应的favicon,就如 Frank Cai 的 Google 个人首页中右侧的那一组 My 链接显示的那样。记得很多所见即所得的尤其用在论坛中的文本编辑器会自动在你敲入的网址前面加上一个表示internet的e图标,其实这些都应该升级为自动获取并显示favicon的方式。这个小小的16×16像素的图标,作为网站的形象,独特、袖珍、精致,很有专门进行收藏的价值。这里就有大约50个favicon因为设计出众而被Smashing Magazine推荐。

(2008年11月28日)

隐性语义检索(LSI)

用 google 进行搜索的时候,当你在关键词前面加上“~”这个符号,得到的搜索结果的数量可能会增加很多。例如搜索 thinkpad 得到的结果数是3270万,而搜索 ~thinkpad 得到的结果却是6.13亿。后者中的结果有的并不含有 thinkpad ,而只是含有 IBM 或者 T20 等等。这便是隐性语义检索的结果,也就是连同与关键词语义相近的词也一并进行了搜索。

那么 google 为什么认为 thinkpad 能与IBM 等词具有相近语义的关系呢?隐性语义检索的原理在这篇文章中被描述得相当复杂。其实简单说来就是搜索引擎不再像以前一样只对各个文档独立列词索引,而同时要对每个网站的多个文档的集合进行内容分析,如果某些词语总是能形影不离地同时出现在不同的文档中,则认为它们彼此是相关的,即具有语义相似性,从而建立起相关词词库。

但搜索 ~IBM 时并不出现含有 thinkpad 或 T20 的结果。这说明词语之间的相关关系并不是双向可逆的。也即在进行相关词库建立的过程中,发现在出现 IBM 的文档中同时出现 thinkpad 的概率不如在出现 thinkpad 的文档中同时出现 IBM 的概率高,而后者的概率高于了成为相关词的阈值,前者没有,于是得到了 IBM 与 thinkpad 相关但 thinkpad 与 IBM 不相关的结论。

(2008年11月26日)

动态网址与静态网址

我们总认为静态网址比动态网址对搜索引擎更加友好。于是很多网站通过URL重写等技术将动态网址静态化。不过Google搜索质量组的工程师们告诉我们这个说法在现在已经不再成立。如果刻意地将饱含参数的动态网址伪装成静态网址,只能适得其反。于是他们强调,尽量保留URL原来的样子,这将帮助搜索引擎更好的分析网页内容。另外,太长的网址尽量不要使用,可能这将加大搜索引擎的负担。

(2008年11月26日)

为搜索引擎设置可抓取的链接

文字链接是最容易被搜索引擎发现和抓取的。如果你特别关注自己的内容是否能被搜索引擎索引的话,使用文字链接是一种比较稳妥的方法。最好将链接对象的意思通过链接文字正确表达,例如<a href=…>软件下载</a>;而不要像这样:<a href=…>点击这里</a>下载软件。后者可能会让搜索引擎感到些许迷惑。

(2008年11月26日)

搜索引擎如何判断网页核心内容

百度谷歌等搜索引擎对网页核心内容的判断大概是首先将爬回的网页与同域名、同目录、同文件名格式的页面做对比,去除相似的部分,例如导航区、版权信息区及固定位置的广告;然后去除密度大的链接区,例如相关文章;最后取<td>、<div>、<p>等容器中的正文。因此我们似乎应该尽量使用规范的容器标记例如<td>、<div>、<p>装载尽量充实且主题明确的正文,以供搜索引擎正确判断核心内容从而进行收录。

(2008年11月24日)

关于用户的搜索意图

做一个好的搜索引擎,要学着去分析用户的搜索意图(intention of SE users)。例如关键词中含有“下载”的多是说明用户想要的结果中包括下载链接。下面是某人对国人搜索意图的分类统计:

32% 直接搜索网站
31% 资源和下载型
16% 信息型
13% 色情类
4%   财经股票类
4%   商业相关(B2C,C2C,以及有可能产生消费的流量)

直接搜索网站的流量竟然占到三成多,这或许说明用户还是比较愿意到自己曾经见过或听过的但记不住域名的网站中去寻找信息。对这一点的认识,谷歌比百度做得好多了。例如我输入南京六中,谷歌首先把南京六中的官方网站告诉我,而在百度,翻半天都找不到,甚至我又输入“南京六中 网站”也不能在前几页能看见。

(2008年11月24日)

利用开心网树立个人品牌

越来越多的人开始使用开心网,就像当年大家开始使用QQ一样,逐渐成为一种习惯。在开心网上你只能看见你的好友的详细信息或者你的好友的好友的信息,更多的则几乎看不见。好友多是熟人。因此大家几乎都使用实名。在开心网上大家都是坦诚的真实的,极少有伪装和欺骗。于是你应该尽量毫无保留的暴露自己的兴趣、爱好,尤其是特长。这是一个个人品牌树立的绝佳平台,略熟的好友会发现并挖掘你。更多更好的机会会因此亲睐你。

(2008年11月23日)

使用蚂蚁互动为网站用户提供免费的语音服务

在网站上发现感兴趣的商家的时候,可能需要直接用电话进行联系。400电话实现了商家替用户支付长途话费的愿望,但并非每个商家都开通得起400电话。而互动蚂蚁提供的语音服务不仅向商家提供便宜的400电话,还可以让商家帮用户掏所有的话费,这对网站的用户而言,将更进一步提高与商家进行通话的意愿。爱帮网泡泡网等平台类网站使用了互动蚂蚁的网站总机中国肝病网海西美容网等服务性公司主页使用了蚂蚁互动的e呼通。用户在访问这类网站时,可以直接给拨打400电话到商家,也可以输入自己的号码,等待电话响起,完全免费地和商家通话。此外还有电话会议呼叫广告两个服务。前者用于公司内部召开电话会议,公司为员工的话费买单;后者用于投放广告的广告主和展示广告的媒体,媒体将可以分得佣金。

(2008年11月12日)

李小龙

从未系统化的了解李小龙这个人物,直到看完今年央视制作的电视剧《李小龙传奇》。之前对他的了解较少,于是这部电视剧让我着迷般在网上一集接着一集的在短短几天内就看完了,还忍不住去网上查看其它关于李小龙以及关于这个电视剧的资讯。对李小龙霸道狂妄的性格感到不适,但对他的英年早逝是绝对的痛惜。能感觉到他是最让我们感到骄傲的华人英雄。真想回到李小龙健在的年代,亲身感受他带给所有华人的一个接一个的振奋和惊喜。亦对中国功夫肃然起敬。想起父亲的一个习武的好友,他的形意拳徒弟遍布祖国大地。他给我讲过很多功夫的知识,现在我要重新去认识他和他的中国功夫。

(2008年11月11日)

改革开放30年·邓小平

刚才在某个网站看到改革开放30年的专题,忽然间想起10多年前邓小平逝世的时候的情景。那年我正在初中三年级,噩耗传来后,所有电视台都中断了原先安排的节目,全部开始播放邓小平的纪录片。这个连续剧记得在半年多以前在央视首播过,我很喜欢看,这次又十分着迷的又看了一遍。似乎是次日,放学后不回家,去了新华书店排队买邓小平的画像,排了很久,还是因为供不应求没有能买到,还错过了当晚精彩的新闻联播,倍感遗憾。后来托邓洲同学第二天早上帮我买回的画像。我贴在家里的墙上,表达我对他的崇敬和爱戴之情。父母都是企业职工,当时全国多数企业因为种种改革逐年变得不景气,早已告别了工人阶级是老大哥的骄傲年代,因此一些父母的同事对家里贴邓小平的画像还不太理解。追悼会那个上午,我最喜欢的物理老师搬来电视机,在教室里和我们一同收看现场直播。亲身经历那样肃穆悲愤的时刻,至今我记忆犹新。那几天,感观世界收到的几乎全是邓小平的信息,致使我在浅睡眠阶段,脑海中全是邓小平的影像。至今为止,邓小平是我最敬仰的政治领袖。

(2008年11月11日)

人肉搜索引擎

所谓搜索引擎,就是一种通过关键词搜索网页的工具,比如百度和Google等。人肉搜索引擎,顾名思义,它仍然是一种针对某个问题或者事件抛出的问题,最终寻找出最佳答案的搜索机制,但这个术语中的“人肉”一词,在掺杂着些许黑色幽默的同时,也准确地表明了这种搜索方式的特点:搜索行为的原动力,不再像传统的搜索方式那样仅仅依靠某个网络程序或者冰冷的互联网资料库,而是更多地靠无数有着真实血肉之躯的网民的亲身参与,由他们在某个随时可能参与进来的时间,用自身的知识、经验、信息渠道,向提问者送上部分答案,再由其他网友补充、完善,直至最后得出确切的答案。比方轰动一时的“虐猫事件”,先是某个网友在曝光的视频里,发现某个建筑物是东北某地。这个答案一出,立马引发了东北网友的寻找热情,很快,有网友将该建筑物锁定在呼兰县……就这样一步接一步,最终找到虐猫女主角。

(2008年11月5日)