BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

百度技术沙龙第22期回顾:海量用户的数据挖掘与行为分析(含资料下载)

| 作者 贾国清 关注 0 他的粉丝 发布于 2012年1月10日. 估计阅读时间: 6 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

在1月7日由百度主办、InfoQ策划组织实施的第22期百度技术沙龙活动上,来自百度网页搜索部用户行为分析方向高级工程师彭滔、人人网Social Graph算法工程师张叶银分别分享了各自在搜索或推荐算法领域所取得的成果及经验,话题涉及“搜索引擎评估与互联网用户行为分析”,以及“社会化推荐算法在人人网的应用实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:搜索引擎评估与互联网用户行为分析视频,MP3和讲稿下载

来自百度网页搜索部用户行为分析方向高级工程师彭滔第一个为大家分享,彭滔主要工作范围包括搜索排序、算法评估、系统监控、用户建模、流量分析。用他的话来说就是:“与日志有关的一切”。彭滔先是做了搜索引擎如何评估的介绍,接下来分别以史前时代、农耕世代、机器时代为例对比并分析了不同阶段所关注的重点以及评估方法的不同,最后从搜索引擎评估、百度的实践以所要面临的挑战几方面进行了总结。

搜索引擎的评估主要从相关性和角度(快、准、全、新)两个层面来进行,所用到的经典方法有MAP、DCG、nDCG和ERR等。百度在这块的实践主要可以分为三个阶段:在史前时代,可以称之为“一个人的战斗”,主要依靠PM Review,搜索评价的工作均由人工完成,在数量和时间上都面临着严峻的考验。其次进入到了农耕时代,利用CrowdSourcing,倚靠群众的智慧是这个时代的显著特征。百度搜索评测平台应运而生,主要用来解决内部验证、线上小规模实验、迭代和修改以及常规运行与监控。到了机器时代就可以根据用户的真实反馈,直接验证策略的好坏,主要的测试方法有AB Testing和Bucket Testing。其中AB Testing的基本流程包括准备实验(模块+日志)、流量分配、实验上线和日志分析阶段。彭滔还分享了在海量数据上的经验:

  • 在解读前给出预期
    • 数据可以海量,结论只有一个
  • 检查一切
    • 实验设计
      • 空转:AA Test
      • 反转
    • 环境检查
      • 日志解析的差别
      • 代码效率的差别

最后,彭滔提到目前主要遇到的挑战有:

  • 人工评价vs.AB Testing指标存在冲突
  • 交互与社会化元素如何评价
  • 短时用户喜好vs.长期用户成长

主题二:社会化推荐算法在人人网的应用实践视频,MP3和讲稿下载

人人网Social Graph算法工程师张叶银第二个为大家分享,演讲主要涵盖主流推荐算法介绍、如何评测推荐系统、重点讲述了Social Graph在人人网中的实践情况。张叶银提到目前主流的推荐算法主要有:

  • 协同过滤
    • User-based,Item-based
  • 内容过滤
    • 属性的相关性
  • 社会网络
    • 图的方法

针对推荐系统的评测,主要指准确度、覆盖率、多样性和新颖性等。目前Social Graph在人人网主要应用于好友推荐、应用(推荐、隐私控制、新鲜事定制)、个性化推荐(用户偏好、用户兴趣、用户成长),其中好友推荐中主要通过以下几点来分析用户的亲密度:

  • 共同好友数目
  • 个人资料相似程度
  • 用户互动频度
  • 用户的兴趣

从张叶银的演讲中可以看出,在进行推荐算法和应用实践时运用到了大量的数学算法和概念,如采样、集合、取舍抽样、因子分解和贝叶斯推理等。

Open Space(开放式讨论环节)

和以往的环节一样,​为了让参会者能够有更多的时间进行相互的交流,本次活动依然设置了Open ​Space(开放式讨论)环节。本次邀请到了重量级的嘉宾来同参会者共讨技术话题,除了百度讲师彭滔、人人网张叶银,丁香园CTO冯大辉酷壳博主、亚马逊中国技术经理陈皓,与非科技CTO姜太文,百度项目管理部高级架构师乔梁,海豚浏览器CTO刘铁锋,禅道项目管理软件创始人王春生分别进行了话题分享,同时与参会者分别就各自的话题进行和讨论。在后续的报道中,我们会将本期的专家点评整理成文,进行详细的报道和总结。

会后,一些参会者也通过新浪微博分享了他们的参会感受:​​

@天马星星sky#百度技术沙龙# 听的就是干货,学到很多东西。

@姜太文:今天下午在#百度技术沙龙#、晚上在车库咖啡介绍了开源硬件与创客空间:开源硬件和创客过去一年多迅速热起;开源硬件的商业模式明确,与物联网的发展契机相合;开源软件的初衷是合作,开源硬件的本质是fork;开源硬件概念由来已久,甚至比开源软件要早。

@陆菁育:下午去百度沙龙,讲到图论我还能接受,到付立叶就要崩溃了。不过,倒是证明了大学学的基础课不是那么没用的。

@马沛:#百度技术沙龙#很多机器无法判断的,人力又无法企及的海量标识,原来很多情况下是放给了用户对用户的行为进行统计分析来实现的,注意呦,网络上的一些游戏很可能是在进行信息的分类和挖掘环节呢。

网友@左其盛也在博客中记录了参加沙龙的过程和感受:第22期百度技术沙龙参会记录:百度ABTesting、人人网好友推荐

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者加入百度技术沙龙微群,InfoQ上也总结了过往22期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览阅读

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT