搜索引擎——一场技术的博弈 - 孙永杰

[ 2005-08-10 23:48:38 | 作者: Admin ] 字号: | |
第二代搜索引擎面临挑战

  提到搜索引擎,人们会马上想到Google,从技术角度讲,Google是第二代搜索引擎的典型代表。从Google诞生至今已有六年多时间,Internet上先后诞生了数千个提供检索服务

的站点,著名的有Google、Dogpile、百度等。虽然这些站点的搜索引擎在收录的范围、内容、检索方法上各有不同,技术上各具特色,但它们在引擎的技术原理上却是一致的,始终处于第二代搜索引擎范畴。

  第二代搜索引擎是以Pagerank为代表的超链分析技术,根据网页之间的超链关系来决定网页内容的重要程度,它在现有技术对网页内容缺乏足够认识时发挥了作用,但其理论基础并不坚实,因为这体现的是“谁的声音大,谁就代表真理”的思想,也就是谁的链接多、流量大,谁的排名就靠前。比如有关SARS的文章,新浪网上的文章会排在中华医学会网站的前面。这些事例都表明超链分析只是一种参照性技术,而无法揭露内容本身。

  如果无法理解内容,也就无法做到个性化。几年来,搜索网站都在利用相似的超链分析技术对搜索结果进行排序,各家也会不时打开竞争对手的网站,查看一下别人的排序情况,思量一番再微调自己的参数。这样调来调去,各家网站的搜索结果变得越发相似。中搜的相关人士告诉记者,结果和别人不同,可能做得好;如果结果和别人相同,肯定没法做得好。第二代搜索使用的超链分析技术已经不可能实质性改善搜索质量了。

  如何实现用户搜索的个性化、智能化,以及更快、更准确地搜索到用户想要信息,这一需求变得越发迫切,搜索引擎技术再次走到了一个革命的路口。

  专业搜索

  ——中国搜索本地化的优势

  如果在桌面搜索技术和市场上,Google和微软依旧占据着优势的话,那么在国内,专业搜索的出现,则为我们的搜索引擎提供了赶超的机会。据业内相关人士介绍,目前,搜索引擎市场的主导方向还是“博大”,重导航作用轻精准信息服务。如何在信息的海洋中捞“金针”呢?这就需要我们的工具更快速、更专业和更个性,于是,“专业搜索”悄然步入传统搜索引擎的领地。

  从技术的层面来看,专业搜索的技术与以前的搜索技术相比从以下几个方面得到了提高。搜索技术不断开发适用和实用的更小搜索单位,发现精深信息内容的方法将得到利用,用户将得到更加准确的内容,而不仅仅是得到包含关键字的网页。专业搜索将做到识别信息并将信息整理好,用友好的界面返回给用户。结合专业功能的移动搜索,即移动终端上的专业搜索,让更多的人开始使用搜索引擎,而且使专业搜索真正专业。

  尽管Google在搜索引擎市场领先,然而非本土化的运作,毕竟有其局限性,随着中国网民日益走向成熟,他们自己的喜好也逐渐显现出与美国观念的不同之处。Google长期坚持不在新窗口中打开搜索结果页面使得很多中国用户感到无奈,MP3,贴吧等功能的缺失更使得 Google与中国用户的距离渐行渐远,Google对中国语言文化的了解和认同恐怕永远不能够达到国内搜索引擎的水平。首先中文是双字节,英文是单字节;中文需要切词,而英文不需要。Google要在中文搜索市场有所作为,这两方面都得重新开始,而这里面需要极其复杂的技术。事实上,Google在双字地区罕有成功,比如韩国、日本。除此之外,Google还受到一些非商业因素的影响,这更增加了其进军中国市场的不可预知性。而当互联网越来越成为人们生活的一部分,搜索越来越成为人们不可或缺的工具时,人们从搜索引擎中寻找对自己语言和文化的认同感的愿望恐怕就越来越强烈。所以作为国内搜索引擎先锋的百度称,总有一种力量让我们做得更好,告诉世界,一个民族的搜索力量应该掌握在自己手中。

  为此,作为国内搜索引擎市场老大的百度打造了其所谓的技术、平台、文化相结合的楔形竞争力。在这里,技术、平台都是直指专业搜索领域。

  根据赛迪顾问公司最近做的一项调查显示,互联网用户经常使用的搜索功能主要集中在网页、音乐、图片、购物等四项专业搜索功能上。例如在音乐搜索方面,一搜和百度以绝对的优势,领先于其他的搜索引擎。在图片搜索方面,百度以44.7%的优势领先其他的搜索引擎。这个统计数据说明,在专业搜索领域,国内的厂商依旧具有独特的优势。

  桌面搜索——微软与Google的技术博弈

  需求引发革命,搜索引擎的技术革命似乎日趋临近,但是关于第三代搜索引擎的概念却还没有统一的定论。但有一点是可以肯定的,搜索引擎将在诸多方面发生着深刻的变化:搜索技术将更加智能化;搜索资源将更加广泛;搜索方式将更加便捷、有效;专项搜索将更加丰富。

  于是以个性化搜索为主要特征的桌面搜索从去年开始成为了厂商竞逐的热点。相对网络搜索,桌面搜索在功能上可以更加方便地实现终端用户的个性化、智能化需求,并且语音、视频等多媒体搜索方式也将得到平台的依靠,具备进一步开发应用可能。在搜索范围上,桌面搜索实现了更加广泛的选择,从电脑到网络包括本地硬盘、局域网、互联网,每个角落都可以用桌面搜索寻找要找的东西。在这里要说明的是,虽然各公司纷纷投入桌面搜索的研发和发布,但各个公司对桌面搜索的定义却不尽相同。Google、百度认为桌面搜索应该只针对计算机本地信息的搜索,如文档、邮件、图片、网站浏览记录等。微软、Yahoo、中搜的桌面搜索产品却是包括本地搜索以及互联网搜索在内的全方位的桌面搜索软件,搜索方式便捷且专项搜索也更为丰富。

  说到桌面搜索的真正竞争是从 2004年10月开始的,Google第一个推出了桌面搜索,立刻受到网民追捧,这个举措同时也将“桌面搜索”的概念清晰化。紧随其后,12月微软推出了 MSN桌面搜索;2005年1月,雅虎推出了硬盘搜索工具。进入到3月,桌面搜索的竞争开始变得白热化。先是中国搜索发布了“网络猪”的最新版本,接着是 Google、百度发布了各自的桌面搜索新产品,桌面搜索新的“圈地运动”展开了。

  桌面搜索“就像是电脑的照相存储器,任何在计算机上浏览过的信息都能轻松搜索到”,它将对现有的搜索方式产生极大的挑战。这巨大的诱惑力使得国内外的搜索厂商们纷纷加入到竞争中。但终级的博弈还是在软件技术力量强大的微软与Google之间展开,这从近日李开复弃微软转投Google而使微软极度恼火的事实可见一斑,因为李开复此前在微软主要负责微软 MSN搜索技术的研发。

  尽管在桌面搜索上,Google占了先手,并动之以挖对手墙脚的策略。但微软毕竟是微软,在软件技术上不出手便罢,一出手必然指向全球最高目标,PC和手机操作系统无不如此。在搜索领域,微软“双管齐下”,一边拿MSN最新版对抗Google,一边在 Windows Media Center系统中加入视频搜索功能。另外,微软的独创之处在于,首先是打造了软硬件结合的搜索平台,其次是它提供了一些Google没有的新功能。

  没有终点的较量——厂商角逐未来搜索引擎技术

  搜索引擎从诞生至今,始终是技术推动型的发展模式,在经历了二代的发展,进入第三代的今天,人们已经开始面向未来的搜索技术的研发。这之中包括了搜索引擎的老大Google和其竞争对手微软,也有一向以技术闻名IT界的IBM。

  Google改善企业搜索和音视频搜索:Google目前正在致力于研究分析音频和视频剪辑文件的算法。该公司还对软件系统加以改进,将不同IT系统中的数据萃取到易于理解的分类下,据称Google在其新闻网站上已经采用了该技术,搜索的准确率得到了很大的提高。

  微软加强搜索个性化:微软认为,计算机用户和搜索引擎交互还有一段艰难路途。该公司的市场分析显示,对于多半问题搜索引擎得不到令人满意的答案,原因往往在于用户没有提供足够多的细节信息。为此,微软正在开发一种工具,便于用户设定其问题,而且计算机易于得出相关答案。有迹象表明微软正在利用其技术实力对搜索结果个性化。

  IBM研究多媒体分析和语义搜索:对多媒体信息进行分析也是萦绕在IBM技术人员头脑中的想法,IBM认为,新型搜索技术将文档视为“人类语言的表达”,而不是匹配文字模式。除处理句法分析之外,IBM还在研究能够理解语义的搜索引擎技术——词在上下文中的含义。

  目前,该公司正在开发一种称作非结构化信息管理架构(UIMA)的软件架构,它有助于其他程序获取并分析文本、音频、视频中的数据,并且将之组织为更加结构化信息。在今后几年内,IBM计划公布UIMA技术细节,以帮助软件厂商构建应用程序,通过文本挖掘及分析从存储数据中提取有用信息。这将开启第三代搜索系统之门,真正实现智能化。

  P2P技术应用到网页的检索中:P2P是peer-to-peer的缩写,意为对等网络。它通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但它至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索是未来的技术发展方向。
Share
评论Feed 评论Feed: http://www.85815.com/feed.asp?q=comment&id=767
UTF-8 Encoding 引用链接: http://www.85815.com/trackback.asp?id=767&key=
这篇日志没有评论.
发表
表情图标
[smile] [confused] [cool] [cry]
[eek] [angry] [wink] [sweat]
[lol] [stun] [razz] [redface]
[rolleyes] [sad] [yes] [no]
[heart] [star] [music] [idea]
UBB代码
转换链接
表情图标
悄悄话
用户名:   密码:   注册?
验证码 * 请输入验证码