BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

百度技术沙龙第38期回顾:打造能“读懂”用户的系统(含资料下载)

| 作者 水羽哲 关注 0 他的粉丝 发布于 2013年5月30日. 估计阅读时间: 8 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

在5月25日由@百度主办、@InfoQ负责策划组织和实施的第38期百度技术沙龙活动上,百度推荐与个性化部高级架构师陈天健、百度个性化推荐部门资深研发工程师姚旭、前淘宝搜索算法专家何杰和Zalora South East Asia 架构师翁伟分享了各自的推荐系统实践方面的经验,话题涉及“推荐系统实时化的实践和思考”、“百度个性化推荐实践”、“个性化推荐在电商行业迷思”和“利用20%时间开发推荐引擎”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:推荐系统实时化的实践和思考 (下载讲稿

推荐系统时效性对于推荐效果往往有着重大的影响,百度推荐与个性化部高级架构师陈天健接下来和大家探讨在实际系统中推荐的实时性是如何从原理到系统各个层面得到体现并做提升的。

他首先提到了推荐系统实时化的需求:

  • 简单热身:实时更新的新热推荐
  • 主流选择:基于反向索引的系统
  • 延伸探索:协同过滤实时化

通过推荐系统实时化,能够加快兴趣发现和收敛速度,获取对于智能程度的感知,提高推荐的质量,并且算法设计和工程实现成本很低,但是缺点是新颖性差,个性化的拓展空间小。基于反向索引召回的系统,与之相比能很好的平衡准确性和新颖性,并且时效性比较好,但是缺点是在召回的过程中存在性能问题。最后,他提到了协同过滤实时化的优缺点,即:时效性大为改进、准确性几乎与之前的方式相当,然而工程的代价比较大;

主题二:百度个性化推荐实践(下载讲稿

百度个性化推荐部门资深研发工程师姚旭则着重介绍了百度的个性化的实践经验,首先他谈到搜索是为了满足用户主动表达的需求,而推荐则是为了挖掘并满足用户的潜在需求。推荐系统主要具有过程发现和兴趣发现的功能,目前百度将整个推荐系统应用在电影、音乐、资讯等,其主要的流程是:进行item的相似度和user的亲密度计算,然后候选item召回,进行item ranking,生成推荐理由并反馈。

基于内容的推荐,不需要依赖用户的数据,回避了产品初期用户不足和数据稀疏性的问题,并且覆盖率高。然而其数据建设成本大,不具有扩展性,并且人对于内容理解额多样性和多层次也造成了误差。而基于临域的推荐,能能在利用群体智慧,无需依赖背景知识,通用性也高,但是强依赖于用户行为数据。

对于不同的推荐算法,他随后列举了工业界和学术界的不同方式。

主题三:个性化推荐在电商行业迷思(下载讲稿

前淘宝搜索算法专家何杰首先以寻找另一个地球为例,引发了其与对于个性化的相似性探讨,并引用前者的现实成果来为后者做指引。在电商行业中,个性化推荐经常被用到,通过它能够提高商品的购买率、实现流量分配,解决长尾需求,并进一步降低营销成本。但是个性化推荐也面临很多问题,他用“啤酒和尿布的故事”和“少女怀孕的故事”揭示了其中的困境:

  • 促销数据过分干扰
  • 数据稀疏是永远的问题
  • 大量重复数据
  • 跨类目推荐难题
  • 没有统一的模型整体解决问题

个性化推荐应该是基于业务经验,辅助数据,结合产品经验,利用算法来加以实现的,这对不同的需求场景,他做出了方案介绍:

  1. 整体指标没有明显的提升,则需要基于群体的个性化
  2. 采用Click Log来进行个性化推荐系统的数据分析

随后,他举例了一些具体的用户模型的训练流程与操作方式。并最终对于推荐系统的未来做了一次预测:

  • 推荐系统逐步替代常规的活动运营
  • 算法重点将放在商业特征和规律的发现

主题四:利用20%时间开发推荐引擎(下载讲稿

来自新加坡Zalora South East Asia的架构师翁伟随后为大家分享了他们的推荐引擎开发历程。Zalora是一家电商公司,成立有1年的时间,他们起初尝试购买第三方的服务,但是发现推荐引擎的存在对于交易额没有影响,并没有发挥他的作用。这时团队面临一个选择,是购买新的服务还是自己开发?最后的选择是自己做开发,因为他们最熟悉自己的业务架构,也知道自己的数据需求。随后他分享了自己在存储和处理数据、统计模型实现等方面的看法以及在实现的过程中使用Groovy和Python的性能问题对比等。

跨界分享

上海岸泊信息科技有限公司创始人&交互设计师高磊为大家带来了关于硬件创业的跨界分享,他提到了“为身边的人而设计”,例如通过加入竞技、社交的元素,利用智能设备检测用户的健康等。高磊的团队目前正在做的就是利用智能硬件的方向,他谈到在硬件创业的过程中其实比较难以控制的并不是项目的实现和执行,而是供应链的管理,如何保障稳定的供应等。最后,他也介绍了目前整个团队的组织架构以及试用于硬件创业的项目管理方法等;

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了Open Space(开放式讨论)环节。

在Open Space的总结环节,几位话题小组长分别对讨论的内容进行了总结。

姚旭:主要讨论了百度的个性化推荐策略和实现,以及如何在工程实现中平衡性能和效果;

翁伟:我们讨论的比较分散,主要是讨论推荐算法在工程上的实现,例如如何根据项目需求来分析项目功能、如何构建解决方案以及算法的优化等;

何杰:大家问我如何进入个性化的行业,我个人认为实际项目最重要,要通过实际的数据做指导,辅助以机器学习、统计学等知识构建,就能慢慢的不如正轨;

高磊:我们讨论了在硬件创业的过程中,供应链的维护和发展的一些方式和方法,还有就是很多想法说出来是没有用的,需要做出来,让人能够真切的感受到;

会后,一些参会者也通过新浪微博分享了他们的参会感受:

haimingfg: 这次只是增长了知识!推荐搜索,数据统计,发掘知识薄弱!没有发起疑问!没有疑问就没有理解!听他们的交谈发现,所有问题都好像一个根本问题击败!你理解你系统的数据么?分析了吗!有什么特征!说实话!我还是不了解我做紧的产品!

Missy席梦思的梦:将话题进行到底:我们都知道UGC(用户生成内容)是伴随着web2.0而诞生的,UGC标签系统也是很多web2.0网站的必要组成部分。那么紧跟着web3.0的重要标签会是什么呢?又会引发什么样的格局呢?尽管现在热门趋势走向了移动互联网。

liushengbing: 一个用户在多类目下存在不同的隐含因子分布,但是又存在一定的关联。多类目无区分推荐,效果应该不佳,独立推荐抛弃了关联,如何利用这种关联改进推荐?多任务学习或者迁移学习是不是派上用场了。

林夕合鸟:在3w咖啡参加百度技术沙龙,听五位老师从不同角度解读推荐系统,学到很多东东,更感受到了现场大家强烈的求知欲和活跃的思维,受益匪浅~除了精神上的收获外,还拿到了3样小礼物喔~

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者关注InfoQ官方微信:infoqchina,InfoQ上也总结了过往37期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第39期百度技术沙龙将在6月29日,在北京举行,欢迎关注@InfoQ@百度技术沙龙获取后续的活动信息。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT