BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

InfoQ播客:Vowpal Wabbit在MSN以及机器学习在工业界的应用

| 作者 Wesley Reisz 关注 16 他的粉丝 ,译者 Rays 关注 3 他的粉丝 发布于 2016年8月25日. 估计阅读时间: 8 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

本周的InfoQ播客内容是QCon主席Wes Reiszt与机器学习科学家John Langford之间的谈话。话题包括John Langford所创建的机器学习系统Vowpal Wabbit。Vowpal Wabbit设计为特别高效的机器学习系统,其中集成了一些机器学习领域最新算法,并已应用于MSN的新闻个性化。他们还讨论了如何在进入到机器学习领域,以及机器学习如何从学术研究中转向工业应用中。

关键要点:

  • Vowpal Wabbit是一种机器学习系统,力图实现对一些最新的机器学习算法的集成。
  • 如何学习机器学习:选学一到两门课程,熟悉机器学习的理论和实践。
  • 机器学习已从研究领域转向工业实践。在ICML会议的九个专题讲座中,其中的四个是来自于工业界。
  • 即使具有了足够的数据,依然难以做到预测。
  • AlphaGo是人工智能的一个里程碑。它使用了强化学习、深度学习,以及围棋大师的实战棋谱。
  • 当前深度学习是计算机视觉和语音识别等领域的颠覆性技术。
  • 趋势是什么:神经网络、强化学习和情境学习。
  • 机器学习技术正在商品化。

点击播客链接收听

摘要

对Vowpal Wabbit的概要描述

  • 1分38秒:Vowpal Wabbit(VW)旨在将最新的机器学习技术集成到算法中。
  • 2分04秒:对于实现从K个类别中择一的预测算法,当K的数值很大时,现有算法的计算代价很大。为改进该问题,VW将包含一种称为“回调树”(Recall Tree)的次线性算法。(译者注:相关研究可参考该预发表论文
  • 3分08秒:在单机上VW可达百兆数据输入在不到一秒时间内的接收。VW中的学习算法默认采用的是线性回归方法。相比于朴素贝叶斯方法,线性回归方法更加强大。
  • 3分32秒:VW使用“实例装配流水线”的方法加速了解析,使得运算时间得到改进。
  • 4分04秒:Langford也在Qcon纽约大会上做了一个介绍VW的报告。在报告中,他通过给出一些实例展示了VW的工作方式。
  • 4分25秒,VW已与其它的技术一起应用于个性化新闻推荐系统中的决策服务。
  • 4分34秒:在MSN中已部署了基于VW构建的新闻推荐系统,该系统的上线已使用户参与度增长了25%。
  • 4分58秒:事实上,Vowpal Wabbit是卡通人物猎人埃尔默·福德(Elmer Fudd)称呼兔八哥时的发音(Vorpal Rabbit)。“Vorpal”一词意为“非常地锋利”,出自“无意义的文字游戏”(Jabberwocky)。Jabberwocky是一首由单词组成的没有特别意义的诗,对诗本身的理解取决于诗中单词的使用方式。“Wabbit”一词来源于电影“Killer Rabbit”,电影讲述一些人在找寻圣杯时遇上了一只十分特别的兔子。

如何走进机器学习

  • 6分12秒:对于机器学习的初学者,Langford推荐去选学一到两门的课程,他提到了吴恩达的课程,以及Yaser S. Abu-Mostafa的课程
  • 6分50秒:为避免犯新手才有的错误,建议应努力去熟悉机器学习的理论。

机器学习实践

  • 7分38秒:相比于十年前而言,机器学习在工业界得到了更广泛的应用。
  • 7分58秒:在ICML机器学习国际会议上,来自于工业界的与会者比例很高,九个专题讲座中的四个是来自于工业界,并且是其中最受欢迎的。
  • 8分35秒:机器学习是搜索和广告等工业领域的关键技术。
  • 9分00秒:机器学习已被用于控制中,例如,对种植或灌溉作物最佳时机的决策。

当具备足够的数据时

  • 12分23秒:机器学习算法输入的表示方式和特征选取是十分重要的。
  • 13分00秒:很难说什么时候数据才是足够的。尽量基于你所拥有的数据建立模型,进而在模型中添加更多的数据,并对模型改进情况进行观察。当时间或经费不足时,接受当前所得到的模型。

人工智能与围棋

  • 14分23秒:在最艰难的比赛之一中,AlphaGo战胜了最好的人类围棋选手,这是对于机器学习和人工智能领域而言是一个里程碑事件。它标记了人工智能的进展,而非解决了人工智能的问题。
  • 15分02秒:为实现这样的结果,AlphaGo组合使用了已有的技术。它使用蒙特卡洛树进行搜索,从所有可能的走法中随机选择一个。它是一个快速算法。
  • 16分54秒:AlphaGo使用了强化学习、深度学习和围棋大师所下过的棋谱。

深度学习

  • 17分39秒:当前深度学习是计算机视觉、语音识别等领域的颠覆性技术。
  • 17分50秒:在2012年的一个图像识别竞赛中,使用深度学习的方法最终胜出,此后每年深度学习方法都在改进。它已达到了人类的误差水平,对一些类型的图像具有与人类同样的识别能力。

趋势

  • 9分36秒:在ICML会议所接纳的332篇论文中,56篇是关于神经网络的,这显示了该研究方向的重要性。强化学习及优化表现方向的研究也同样受到重视。
  • 18分37秒:将会出现新的深度学习应用。
  • 18分50秒:强化学习和情境学习对于处理因果关系是十分重要的技术。
  • 20分20秒:机器学习已近乎成为商业化的服务。Amazon、Google、 Microsoft等公司已经提供了机器学习服务。

其中提到的人士和公司

其中提到的产品

关于QCon大会

QCon是由InfoQ主办的全球顶级技术盛会,由业内人士推动,专为在团队中影响软件创新的技术团队主管、架构师以及项目经理而设计。QCon每年的七场大会分别在伦敦、纽约、旧金山、圣保罗、北京、上海和东京召开。QCon旧金山市大会已经举办到第十届,今年将于11月7日至11日期间举行,届时会有100多名业内专家作为演讲嘉宾,并有1300名与会者以及18个涉及如今推动软件开发发展的专题追踪报道。想要了解更多详情,请参见qconsf.com网站。

更多关于播客的信息

你可以通过RSS订阅我们的播客,或者通过SoundCloudiTunes收听。本页所列出的播客摘要内容均附有可点击链接,点击后可直接切换到音频的相关部分。

查看英文原文:The InfoQ Podcast: John Langford on Vowpal Wabbit, Used by MSN, and Machine Learning in Industry


感谢夏雪对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT