辛夷坞

涧户寂无人,纷纷开且落

By - Christen

谷歌

谷歌作为一个搜索引擎,它的核心功能顾名思义,就是网页搜索。说到搜索,我们都不陌生,因为那是凡地球人都会的技能。
我们在字典里查个生字,在图书馆里找本图书,甚至在商店里寻一种商品,等等,都是搜索。只要稍稍推究一下,我们就会发现那些搜索之所以可能,并且人人都会,在很大程度上得益于以下三条:
1、搜索对象的数量较小——比如一本字典收录的字通常只有一两万个,一家图书馆收录的不重复图书通常不超过几十万种,一家商店的商品通常不超过几万种,等等。
2、搜索对象具有良好的分类或排序——比如字典里的字按拼音排序,图书馆里的图书按主题分类,商店里的商品按品种或用途分类,等等。
3、搜索结果的重复度较低——比如字典里的同音字通常不超过几十个,图书馆里的同名图书和商店里的同种商品通常也不超过几十种,等等。

但互联网的鲜明特点却是以上三条无一满足。
事实上,即便在谷歌问世之前,互联网上的网页总数就已超过了诸如图书馆藏书数量之类传统搜索对象的数目。
而且这还只是冰山一角,因为与搜索图书时单纯的书名搜索不同,互联网上的搜索往往是对网页内容的直接搜索,这相当于将图书里的每一个字都变成了搜索对象,由此导致的数量才是真正惊人的,它不仅直接破坏了上述第一条,而且连带破坏了二、 三两条。
1996 年初, 谷歌公司的创始人, 当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。这两位小伙子之所以研究网页排序问题, 一来是导师的建议 (佩奇后来称该建议为 “我有生以来得到过的最好建议”),二来则是因为他们对这一问题背后的数学产生了兴趣。
网页排序问题的背后有什么样的数学呢?这得从佩奇和布林看待这一问题的思路说起。
在佩奇和布林看来,网页的排序是不能靠每个网页自己来标榜的,无论把关键词重复多少次,垃圾网页依然是垃圾网页。那么,究竟什么才是网页排序的可靠依据呢?
出生于书香门第的佩奇和布林 (两人的父亲都是大学教授) 想到了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数
在互联网上,与论文的引用相类似的是显然是网页的链接。因此,佩奇和布林萌生了一个网页排序的思路,那就是通过研究网页间的相互链接来确定排序。 具体地说, 一个网页被其它网页链接得越多, 它的排序就应该越靠前。不仅如此,佩奇和布林还进一步提出,一个网页越是被排序靠前的网页所链接,它的排序就也应该越靠前。这一条的意义也是不言而喻的,就好比一篇论文被诺贝尔奖得主所引用,显然要比被普通研究者所引用更说明其价值。依照这个思路,网页排序问题就跟整个互联网的链接结构产生了关系,正是这一关系使它成为了一个不折不扣的数学问题。
2001年,佩奇为 “佩奇排序” 申请到了专利,专利的发明人为佩奇,拥有者则是他和布林的母校斯坦福大学。
2004年8月,谷歌成为了一家初始市值约 17 亿美元的上市公司。
作为公司摇篮的斯坦福大学则因拥有 “佩奇排序” 的专利而获得了 180 万股谷歌股票。2005年12月,斯坦福大学通过卖掉那些股票获得了 3.36 亿美元的巨额收益,成为美国高校因支持技术研发而获得的有史以来最巨额的收益之一。
谷歌在短短数年间就横扫整个互联网,成为搜索引擎业的新一代霸主,佩奇和布林的那个排序算法无疑居功至伟,可以说,是数学成就了谷歌。
当然,这么多年过去了,谷歌作为 IT 界研发能力最强的公司之一,它的网页排序方法早已有了巨大的改进,由当年单纯依靠 “佩奇排序” 演变为了由 200 多种来自不同渠道的信息——其中包括与网页访问量有关的统计数据——综合而成的更加可靠的方法。而当年曾给佩奇和布林带来过启示的学术界,则反过来从谷歌的成功中借鉴了经验,如今一些学术机构对论文影响因子 (impact factor) 的计算已采用了类似 “佩奇排序” 的算法。

Leave a Reply

Your email address will not be published.
*
*