BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

百度技术沙龙第34期回顾:机器学习之多媒体方向的思考(含资料下载)

| 作者 水羽哲 关注 0 他的粉丝 发布于 2013年1月16日. 估计阅读时间: 7 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

在1月12日由@百度主办、@InfoQ负责策划组织和实施的第34期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

本次沙龙是2013年的第一次沙龙活动,同时作为2012年的年度回顾,InfoQ中文站创始人兼CEO霍泰稳阐述了InfoQ的宗旨以及在2012和2013年的变化。随后分享了《架构师》月刊在2012年的专题内容并展望了2013年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了InfoQ对于移动开发、云计算、大数据、HTML5和Node.js等方面的关注。

本次沙龙还选出了2013年的6位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。

主题一:深度学习进展以及在语音图像中的应用 (下载讲稿

百度的多媒体部副总监余凯第一个为大家分享,他谈到自从80年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以Kernel Learning 、Transfer Learning为代表的Learning with Structures引领潮流。成功之外,他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006之后,使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用:

  • 微软在2009年首次将其运用到机器语音识别的模型中;
  • 谷歌的“Google Brain”项目;
  • 百度在语音、图像识别方面的运用;

然后,他谈到了构建Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding等内容。

主题二:个性化阅读产品实践 (下载讲稿

简网联合创始人、CTO谷文栋第二个为大家分享,本次分享的内容以开发指阅过程中的实践为主,包括指阅的“信息基因”技术、 图数据库(neo4j)以及产品感悟来向大家展示是如何运用等。

首先他阐述了Tim Berners Lee对于互联网的理解,即电脑互联、文档互联与物联三个阶段。目前,百度、谷歌等的兴起与发展代表了第二个阶段的成果,而第三个阶段正在到来。出于长远的考虑,他们打造了指阅这个产品,通过关联人与物(目前是文本)的关系为用户制作个性化的内容,他们称之为“基因工程”,目前已经有Freebase、Google Knowledge Graph和Pandora等同类产品。在实现产品构想的过程中,他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性,而NoSQL在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在NoSQL解决方案的选择:图形数据库。出于稳定性和效率的考虑,指阅团队目前为采用Neo4j来作为数据库,并使用Cypher来进行数据查询,支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点,即不容易进行分片。

指阅是将文本作为图,使用TextRank算法来建立信息基因,在构建产品的过程中他们也发现了一些问题:

  • 信息生命周期短暂
  • 同质化问题严重
  • 用户兴趣变化捉摸不定

最后,他总结了自己的心得,即:

用关联的视角去思考问题

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了Open Space(开放式讨论)环节。

在Open Space的总结环节,几位话题小组长分别对讨论的内容进行了总结。

余凯:关于机器学习的技术细节,并发散到技术的潜能,例如关于多人说话的即时翻译等,我们认为在今后的5年将会有更多成熟的产品推出;

古文栋:关于创业的方向选择,首先要从大势出发,另外就是结合自身的情况,最后就是要把算法作为工具来反哺于产品上;

邵磊:做产品要前期积累人脉,同时要把握住自己的方向,找到自己的兴趣点才能够成功;

老杨:主要谈到提高学习效率的方法:大范围交流、吸收重点、实践与反馈。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

ThinkingThigh:今天参加了百度技术沙龙之后很有收获,除了自己一开始就很感兴趣的徐老师的deep learning之外,谷老师介绍的neo4j和杨老师提出的线下活动,都给了自己不少启发。

钱钤:百度技术沙龙办的很不错,@InfoQ 关注行业内最新技术资讯,@百度技术沙龙 邀请很多行业内知名专家给听众讲座并近距离交流,各位技术同仁,请大家多多关注吧~~~难得的沟通学习机会。

有假熊出没:人工智能对语音和图像的识别已经越来越强了,是不是可以为更广泛的人群所应用,期待中。

digiter:2012年十月有不少大事呀,ImageNet标志DeepLearning开始流行,Lucene 4开始加入更好的打分方法,Solr 4标志分布式全文检索时代开始。

lazycai:yukai吐槽现在的机器学习工作者:大家都喜欢做有趣的工作,全扎堆去做prediction这方面,不愿意去做前面四个很无聊的工作。但是,机器学习能否做好的关键,恰恰在前面四步。

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者参加百度技术沙龙微群,InfoQ上也总结了过往31期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第35期百度技术沙龙将在2月2日,在北京举行,欢迎关注@InfoQ@百度技术沙龙获取后续的活动信息。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT