BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Facebook工程总监Lars Rasmussen介绍图谱搜索产品开发过程

| 作者 郑柯 关注 3 他的粉丝 发布于 2013年1月17日. 估计阅读时间: 7 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

2013年1月16日,Facebook发布了图谱搜索(Graph Search)的beta版该,产品可以让用户按照自己的关系图谱搜索内容。Las Eilstrup Rasmussen是Facebook的工程总监,他在自己的日志上介绍了图谱搜索的开发历程。

Las首先指出了该产品的独特之处:

它可以让你以全新的方式,发掘你的朋友和其他人在Facebook上分享的内容。使用图谱搜索,你只要输入类似短语:“我住在旧金山的朋友”,“我的家人在哥本哈根拍的照片”,或是“我朋友喜欢的牙科医生”,Facebook就能很快展示出你请求的内容。

Las提到:图谱搜索在一年多前就是Facebook搜索团队的主要目标,但项目的起源要从Facebook早年间说起。

人们能搜索基本信息,比如朋友、小组、活动,但是支撑这些搜多的系统不够强大,它们也不能随着网站的发展而扩展。

随着内容越来越多,Las和团队认识到:想得到需要的结果,越来越困难,等待时间也越来越长。

接下来,他回顾了图谱搜索的开端:

在2011年,Zuck要求搜索团队设计、构建一个全新系统,要具备搜索整个社交图谱的能力。这是个有趣的挑战,因为与Web这样的海量文本集合相比,我们数据库里面的数据要更具结构性,不像自由流动的文本那么简单。因此,传统的关键字搜索产品可能无法满足要求。

当时,他们的争论在于:在开始时,是否应该开发针对特定用例(比如招聘搜索,或本地搜索)的小型产品。这样的产品易于理解,而且可以帮团队为开发更大规模产品积累经验。但是,他们的最终选择是:

出于最彻底的黑客精神,我们决定一干到底:我们能否开发出一个单一的、结构化的搜索机制,既可以让人们搜索社交图谱上的一切,又能随着Facebook不可思议的成长而扩展?我们必须找到答案。

Las接下来指出:

这样的产品同时带来两个挑战:这样的产品会是什么样子?我们需要构建什么样的基础架构来支持它?

对于产品的原型部分,Las的团队开发了多种简单的图形化原型,让用户以点击的方式,逐步完成结构化的、数据库式的查询。但都因为过于复杂被他们否决,而且也不能满足Zuck给他们提供的挑战。

接下来,新的思路出现了:

新的想法来自于Facebook每个页面的标题,我们希望人们能构建他们自己感兴趣的特定内容的视图。如果一个用户只是输入他想找的内容,我们能否构建一个系统来理解用户的输入并找到响应的内容?

这样的内容能完美整合Facebook现有的搜索机制,因为用户要做的,还是在每个页面上方输入搜索意向。

一周左右,我们几个人完成一个简单的概念原型:初级的、指数级的“解析器”,用JavaScript写成,可模拟我们希望完成的体验,只要输入的内容不超过几个标志字符。我记得我们拿给Zuck看的时候,那是在2011年夏天。他说:“你们不可能做出那样的东西,但如果你们能做出来,那就牛掰了。”(Zuck知道如何激励人……)

Las的团队从未有类似产品开发经验,因此他们看了很多书。

我们组合了很多解析技术,构建出一个字符串解析器。假设用户输入:“friends New York",对此,我们已经定义了一个所有可能的页面集合,而且系统可以处理这样的集合。我们的解析器接下来就可以生成图谱搜索的标题,其中包含用户的输入,包括“friends who lived in New York"和“friends who have visited New York"。如果我们能找到一种方式来为这些建议的标题排名,就算有了一个好的开端。

又过了一个多月开发,我们有了一个原型,让我们有信心足以构建今天发布beta版本的这个系统。

接下来,Las介绍了该产品的基础架构。

搜索团队的系统工程师致力于开发必须的架构。

头号挑战:每个月,有超过10亿人使用Facebook,他们分享超过2400亿张图片,并在几千种不同类型的内容间构建超过1万亿连接。每天,人们分享几十亿新内容,图谱搜索需要在这些内容创建后几秒内就建立起针对它们的索引。

其次,我们运行这么多服务,还要写很多代码。在Facebook我们以最快速度前进,常常构建针对特定用例的基础设施和架构。坚信:公司相当程度上的成功,都依赖这些。但是背后要付出代价:从我们开始图谱搜索项目时,搜索团队负责维护三个独立的搜索系统,支持站点上诸多搜索功能,这些功能都是我们过去几年开发的。维护压力已经占用了相当多很有限的工程工作时间,要加入第四个系统,看起来不是什么好主意。我们极度需要把系统都整合起来。

当然,还要解决图谱搜索需要回答的特定搜索查询。使用传统的信息存取系统,来混合关键字和结构化查询,这已经熟烂于心了。但是我们需要系统找到的答案不仅限于单一关联,比如“restaurants liked by my friends from India”。我们运气不错:三个已有系统中的Unicorn,就是专门为这个设计的。

搜索基础架构团队决定采取两个步骤:

首先,扩展Unicorn,管理所有现有的搜索体验,并满足图谱搜索的所有需求。今天,我们已经足以上线图谱搜索beta版本。但是,我们还没有能力索引用户在Facebook上分享的所有帖子和评论,这个数据集是我们为了图谱搜索和Unicorn所积累的最大的数据集。团队会在工程团队博客上撰写更多关于这个问题的内容。

Las接下来还谈到图谱搜索的未来:

今天只是开始,我们开始把更多注意力放在人、照片、地点和兴趣上,但是希望寻找方法整合帖子和开放图谱动作,同时,让图谱搜索在移动终端和所有语言中都可以使用。我们很兴奋,能让搜索变得更有用、有趣,同时致力于让用户发掘现有关系中,以及在Facebook上建立新关系。

最后,Las号召大家都去尝试图谱搜索的beta版本

InfoQ中文站的读者们,你们有谁翻墙用过这个产品了么?感觉如何?欢迎在评论中留下你们的使用感受。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

这是神马新思路呢 by sunly everly

看不懂如此这般如同机器翻译过来的新思路..

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT