BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

豌豆荚发布应用内搜索协议

| 作者 水羽哲 关注 0 他的粉丝 发布于 2014年4月2日. 估计阅读时间: 7 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

3月27日,豌豆荚正式发布“应用内搜索技术协议”,它提供了一套开放的应用内内容检索、收录和调起的标准,并且兼容Google App Indexing 协议与Quixey的AppURL,开发者通过描述应用内内容、向豌豆荚提交内容信息以及使应用支持外部调用三个步骤即可完成接入。

目前豌豆荚已经收录了140万应用、195万部视频、198万部电子书和248万张壁纸,但是他们也发现,在移动互联网时代,搜索引擎将会遇到两个问题:

  1. 超链接失效使得内容变得孤立;
  2. 用户需要结构化的内容;

为了解决这个问题,豌豆荚于今年1月推出应用内内容搜索功能,豌豆荚产品设计副总裁刘亚平特别强调了应用搜索的产品战略意义,他们希望通过例行“全面准确”、“直达行动”、“情景化”三个原则,让用户在垂直内容频道里获得沉浸式的浏览和体验。上线两个月来,通过应用内搜索,豌豆荚还为22家合作伙伴带去了1000万量级的新用户,刘亚平谈到:

……短短两个月时间,豌豆荚为第三方合作伙伴的应用多去了1000万量级的新用户,每一个新用户都是想要去寻找内容的,都是非常高质量的。两个月的时间,豌豆荚和22家合作伙伴一起就能完成这么多事情,这是还蛮奇妙的过程。两个月的时间里我们做了这些事情,这只是一个开始,只是第一步。

为了让更多内容应用接入进来,豌豆荚开放了搜索协议,协议兼容Google App Indexing和AppURL,在豌豆荚的开发者中心文档中对协议有详细的介绍,对网站内容和应用内容一致的开发者,还可以通过在页面中定义Microdata的方式让豌豆荚的网页搜索引擎来自动抓取和收录。目前,应用搜索的内容提交需要按照预定的数据标准进行详细的定义,未来也将会开放更多的门类。

对于搜索而言,结果的排序格外重要,豌豆荚搜索平台技术负责人李大海强调“豌豆荚对自己的定位是一个公平、公正、独立的平台,也是一个能够连接用户和合作伙伴的管道,公正的排序对于开放共赢的生态系统是非常重要的”,在保障搜索排序公正性方面,他举了一个例子:

举一个视频内容的例子,在对视频内容进行排序的时候,我们会考虑非常多的因素。简单来说,比如说这个视频内容和用户查询的相关性、视频本身的热度、其他用户对视频的好评度、视频的码率和用户在查询时网络环境之间的关系、用户这时候安装了什么样的应用等等,这些都是考虑排序信息。在接下来的日子里,豌豆荚还会持续的投入大量的工程资源来保证我们的排序公正性和智能性。

在被问及是否会在产品设计中加入竞价排名时,刘亚平说:

目前为止在这里有类似广告这样的产品形态出现,对用户来说并不是最好的体验。这个判断原则是这里,那么未来就不会变化,我们依然不会出现广告。如果有一些移动广告的形式特别适合,在这种场景下对用户体验是帮助,我们也会考虑,这里重要的是它的判断原则是什么。

随后的采访中,我们针对一些细节问题和豌豆荚搜索平台技术负责人李大海做了沟通:

InfoQ:有搜索就会有作弊,有SEO,你们现在对二者都是如何处理的?

李大海:毕竟应用内搜索刚开始,从视频搜索发布到现在刚半年的时间,另外我们的22家合作伙伴现在都是一家一家谈下来的,在这样的量级之下,作弊还是很困难的,现在还好。当然,不管是搜索引擎架构设计还是人员的分配上还好,我们都已经考虑到了这个问题,以后只要出现这个问题,我们会花功夫处理。

对于SEO,他的目的是让搜索引擎更了解、更结构化的描述它的信息,让搜索引擎对内容理解更深刻,在目前的应用内搜索技术框架中,我们希望合作伙伴的内容信息在提交的时候就是结构化的,当然,我们也在和合作伙伴一起做进一步的优化。

InfoQ:最早你们的搜索引擎使用的Solor,现在是否还是基于这一套架构?

李大海:我们对于应用的搜索的判断是能够和网页搜索对应,因为本质上互联网的内容逐步的转移到应用里面去,当移动互联网发展到一个阶段的时候,一定会有一个里程碑,在此之上,移动互联网的内容跟传统互联网的内容是持平的,在这样的一个假设下,我们认为现在的移动内容搜索,规模会和传统的网页搜索相等,所以Solor的架构不足以支持我们长期的发展,我们现在还在开发一个新的、更加注重空间效率和运行效率的检索系统。

InfoQ:新的检索系统有哪些特性?已经投入使用了吗?

李大海:我们收录的内容主要具有两个特性:第一,结构化;第二,有完全不同的门类。当我们介接入140万家应用内容时,这个内容将会是五花八门、完全不同门类的,因此我们的检索系统也需要能够在这么多不同的门类之间去做排序,在这个过程中需要考虑多种因素,能够给一个最有效的排序结果。传统的搜索引擎需要考虑的是能支持高并发、大容量,虽然这是现在也需要考虑的事情,但不是最新的挑战,新的系统目前针对这两个特性正在开发中,小规模在跑,和原有的系统在并行运行。

InfoQ:为什么使用了一套兼容协议而不是使用Google App Indexing或者AppURL?

李大海:我们最主要的考虑是移动互联网的独有内容使用这两个协议是不能完全覆盖的,而这部分的合作伙伴在提交的时候将会遇到困难,因此我们希望能够使用Microdata来描述结构化的内容,合作伙伴通过这种方式也能提交给我们数据。

InfoQ:今天只展示了开发者接入的功能,但是没有展示开发者数据后台,搜索数据是否会反馈给开发者?

李大海:我们现在提供给开发者的功能还处于内部研发的阶段,一些功能还没有上线。通过协议接入也是刚发布出来,随着时间的推移,开发者中心将会逐步完善,这也符合互联网的精神:快速推出、不断迭代。对于我们的合作伙伴有价值的东西我们一定会做,但是我也相信这个事情是一步一步实现的。

InfoQ:其他的厂商通过现有的协议也可以自己做一套应用搜索?你们是否会开放数据给其他的搜索厂商?

李大海:豌豆荚希望建立一个开放共赢的生态,我们对于自己的定位是独立的、公平公正的系统,但并不是这个生态系统中唯一的平台,我们希望大家一起把这个事情做大,让移动搜索的产品形态能够得到用户和所有互联网厂商的认可。另外,由于我们的数据属于合作伙伴的数据,只能用来为用户服务,因此也没有权利开放给其他人。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

solor似乎为笔误吧,是否应该为solr? by Chiu David

solor?solr?

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT