BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

百度辜斯缪谈搜索引擎的未来——实体搜索

| 作者 贾国清 关注 0 他的粉丝 发布于 2012年11月26日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

百度资深研发工程师辜斯缪:多年来,自然语言技术一直被认为是人机界面的“乌托邦”梦想。也即人们对计算机说出一句话,计算机就能够理解并迅速响应。然而,在现实应用中,人们使用最为频繁的,还是基于关键词的搜索引擎。近年来搜索引擎呈现出“关键词”——“SNS”——“实体搜索”的递进式发展,其搜索对象也从“信息片段”到了“人”以及“实体”。

何为SNS搜索和实体搜索

如百度空间、百度知道、百度贴吧类社区式服务,再比如微博这样的服务,实质是将人聚合在一起。SNS搜索,就是可以找到感兴趣的人。当看到百度空间、百度知道、百度贴吧、微博上感兴趣的内容,也能够进一步找到这个人,和他/她交朋友。这就是SNS搜索。

而实体(Entity)搜索是相对于关键词(keyword)搜索而言的。关键词搜索是只能针对用户输入关键词去检索,搜索引擎按照字面意思检索。实体搜索关注的重点不是“关键词”级别的信息,而是“对象”,比如:人、电影、软件、小说、公司,组织等等。从关键词向实体转化,将从更精细的角度来理解和组织搜索结果。在一定程度上可以理解query(即用户搜索需求)的意思,并直接给出答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如搜“张艺谋导演的电影”。

辜斯缪做了进一步的解释:

很多时候用户的需求就是这样,只知道想找某一类东西,但并不明确具体要找的东西叫什么。对于这样的需求,过去是一筹莫展的,而我们现在却能够智能的搜索到结果,并组织成一个集合呈现给用户。事实上,百度在揣度用户心思的方面做了很多努力,希望尽可能的识别出用户的需求,哪怕用户对需求的描述是多样化的或者不规范的。

比如,我买了同仁堂这支股票,搜索“同仁堂”可以找到它的股票行情,或者搜索“600085”的股票代码也可以搜索到它的行情。现在的搜索引擎可以认为已经有了一定的人工智能,能够猜到你到底要搜索什么并且能够直接给你推送相关的结果。传统搜索引擎只能“返回”用户下的指令,实现不了智能的“发现”。比如你搜索“秋天开花的树”,需要在搜索结果中不断去手动探索答案。而实体搜索,用户只需要通过一次点击,就能得到想要的结果。之前需要用户亲自执行的中间繁复的筛选+搜索的过程,全部由实体搜索代替用户完成。

实体搜索都有哪些技术创新

实体搜索背后,需要有一个关于实体的信息数据库,库里的信息既要包含海量的实体信息,还要有能精确描述实体的相关属性。实体库的建设需要长期的积累和强大的数据挖掘技术,这正是百度的长处。百度从互联网海量的网页中挖掘出有效的实体,对这些实体进行分类,并能把关键的属性也进行分类,保证了实体信息的广度,也保证了实体属性的精度。

辜斯缪谈到:

通过百度独特的数据挖掘技术,实体搜索能做到的不仅目前可见这些,还能提供更复杂的信息。比如实体之间的关联。像人与人之间的关系,通过获取到的资源,仅从字面信息是不能完全分辨的,需要更进一步的挖掘和分析。比如明星的人物关系。最简单的是家庭关系,从一张网页的字面信息就能直接获取,明星之间的朋友关系就复杂一些,不能从一张网页上得到,而是需要对明星人物相关的页面进行整理,提取其中的相关信息,通过分析和比较,才能得出结果。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT