BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Strata AI 纽约大会热点回顾(二)

| 作者 阎志涛、张夏天等 关注 0 他的粉丝 发布于 2016年9月30日. 估计阅读时间: 23 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

今年9月,由国际知名科技媒体集团O'Reilly举办的Artificial Intelligence研讨会,及Strata + Hadoop World 在纽约召开。TalkingData有三位数据科学家亲临现场,与来自世界各地的AI、大数据领域的学者、专家进行沟通。为了能够让国内的小伙伴第一时间了解到大会上各位嘉宾分享的内容,TalkingData将与InfoQ全程合作,第一时间为大家带来大会现场的各种信息,并对最新技术、理论、成果进行点评,帮助大家了解到AI及大数据领域各大企业、研究机构的最新观点和研究成果。

路瑶 -- 深度学习的创新应用

Interactive learning systems: Why now and how? Alekh Agarwal (Microsoft Research)

这位来自微软的主讲首先用超级玛丽的例子阐述了监督学习的局限,他认为监督学习是一种开环结构,无法自动调整策略,故而无法适应复杂环境,在解决复杂的,难以预估的问题时会陷入困境。比如在超级玛丽游戏中,用监督学习会出现例如卡在管子一侧的情况。而交互式学习是一个闭环的机器学习结构,可以从实际问题中改进自己的性能,从而适应复杂环境。具体的交互式学习包括reinforce learning, active learning, bandit 等方法,在近年来成为热点。主讲重点介绍了contextual bandit learning, 特别是在多策略选择上的运用,即在线上的算法运行过程中,如何自动选择并更新当下的最优策略。微软开发了multi world decision service. 更多细节参考http://mwtds.azurewebsites.net

Making AI a reality for the enterprise and the physical world Aman Naimat (Demandbase), MARK PATEL (McKinsey & Company)

麦肯锡的这个讲座探讨两个问题,一是AI如何在实际业务,特别是物理世界中发挥作用,一是AI有什么样的潜力。开篇介绍现在AI有多火,大量公司如Google,微软等都在AI上投入了大量资金。物联网使得AI技术得以在物理世界得以发力。然而现在大量物联网的数据并没有被充分使用。以某油气case为例,数据在所有收集的数据中,只有40%被架构,1%被管理,1%被分析,不足1%被真正运用。而如果想要AI在物理世界中被运动,关键工作包括去除垃圾,创造盈余,增加易用性,提高质量。随后主讲介绍了在供应链管理中AI可以在闭环管理,需求发现,利润优化等方向上发挥作用的可能。具体的,以民主选举为例,AI如何分析选票,如何从个人在其他领域的兴趣预测他本人的选举倾向,如何预测选举结果。最后总结,AI将有助于商业模型分解,激励设计,为现有问题提供新价值。

Lessons learned from deploying the top deep learning frameworks in production Kenny Daniel (Algorithmia)

Algorithmia是一家提供算法服务的公司。用户可以用很少的代码迅速在自己产品上实现关键词提取,人脸识别,情感分析等功能。这个讲座中,Algorithmia的CTO Kenny为我们介绍了在现实项目中大规模深度学习的那些坑。

讲座涵盖了做DL的几个痛点,包括1. GPU对DL很关键,但是现在却不是主流,2. 选择哪个深度学习的框架,3. 如何调节深度学习的模型。GPU上,无疑Nvidia是霸主,性能优越,特别是几乎所有深度学习的主流框架都选择与CUDA结合,在这些方面领先AMD很多。接下来比较了几种主流深度学习框架的特点,包括tensorflow,theano,torch,caffe等知名工具,赞赏了caffe,特别是在CV领域的地位,吐槽了tensorflow,另外最近在Kaggle上表现突出的深度学习高级工具Keras也有提及。最后在模型调优上,DL在训练和运行上都很有挑战,现在很多研究人员为训练上的挑战提供了很多方案,但是在实际运行中的问题关注的不够,Kenny认为DL在运行上的方案优化是非常必要的,而且需要具备和训练模型时候不一样的skillset。具体的,Kenny建议在更多硬件上执行更轻量级的模型,也建议了去尝试SqueezeNet,Docker等工具。

Leveraging artificial intelligence in creative technology Jennifer Rubinovitz (DBRS Innovation Lab), Amelia Winger-Bearskin (DBRS Innovation Lab)

DBRS是一家著名的加拿大信用评级公司。DBRS Innovation Lab专注于大数据技术在FinTech上的应用。该公司的开发了交互式可视化分析工具帮助客户理解信用评分,留存管理,以及风险控制等问题。本次讲座着重于介绍他们使用AI实现创作性质的工作,比如音乐制作,现场展示了深度学习所作的钢琴曲,听起来简单和谐。其他demo包括用VR做深度学习计算过程的可视化,用word2vector模仿不同诗人的风格作诗等等,特别有趣的是,可以调节一首诗和某两个诗人风格的中和的程度。更多demo参见https://dbrslabs.com

深度学习表现了在创作上的潜力,把动画片转化为不同画风,甚至可以写电影剧本,如今年发布的9分钟短片Sunspring,可以在YouTube上观看https://www.youtube.com/watch?v=LY7x2Ihqjmc

期待未来深度学习在创作型工作上给我们带来更多惊喜。

Combining statistics and expert human judgement for better recommendations Jianqiang (Jay) Wang (Stitch Fix), Jasmine Nettiksimmons (Stitch Fix)

Stitch Fix为线上用户提供衣服选择服务,用户输入自己的尺码喜好等基本信息,算法为用户选择衣服并和用户再进行交互,最终锁定用户要购买的衣服。

服装推荐是电商推荐系统中重要且非常有挑战的一环,近年来的研究已经从简单的单品推荐衍化到更丰富的推荐场景,比如eBay的搭配推荐。同时用户的穿衣风格和审美也是科学家感兴趣的话题,而基于风格的用户推荐是服装推荐的一个重要方向。

本次讲座介绍了他们如何将机器学习算法和人的反馈结合起来,为用户提供Fashion推荐。这里面涉及很多技术点,其中一个重点是如何根据用户的反馈来迅速改进结果。他们尝试了不同的机器学习算法,对比了在选择过程中机器和人的判断对与最终结果来说哪个更可靠,并基于若干具体事例介绍他们的调优技巧。

张夏天 -- 微软CNTK开源平台以及其他公司的深度学习框架

Progress of delivering real AI workloads 支持真实AI应用的进展,Xuedong (XD) Huang (Microsoft Research)

微软在AI落地方面做了很多工作,从代理,应用,服务和基础设施方法都做了大量的工作。Cortana个人助理,能够了解人,了解人的工作和生活,以及我们的世界,并在所有设备上未人提供服务,现在有超过1.3亿用户和120亿个请求。在应用上,微软用chatbot技术来支持客服服务,使得用户自服务的成功率从12%提高到25%. 在服务方面,微软开放了认知服务接口,包括知识,搜索,语言,语音,视觉等方面的识别服务以及机器学习服务。在基础设施方面,微软也将认识能力植入在Azure平台上。而支持以上这些能力的一个重要工具就是微软的Cognitions Toolkit  - CNTK。CNTK现在已经开源,帮助实现AI能力的民主化。CNTK相对于其他深度学习框架,其中比较的优势是随着GPU数量的增长,计算能力是线性增长的。而且可以比较容易的支持深度学习集群上的分布式。而且,基于CNTK, 微软实现了语音识别上的一大突破,将单词的识别错误率降到了6.2%。

Unlocking AI: How to enable every human in the world to train and use AI 解锁AI: 如何让所有人都能训练和使用AI,Matt Zeiler (Clarifai, Inc.)

Clarifai是一家视觉人工智能的创业公司,该公司对自己的使命是“理解每一张图片和每一个视频来改善人们的生活”。该公司提供简单易用的视觉识别服务,包括API和网站两种形式。其服务非常简单易用,最基本的功能就是识别图片,该公司的图片标签有超过11000个,通过服务可以识别任何一张图片的标签。除了通用识别模型,该公司还针对食品,旅行等领域提供了领域识别模型,可以更精细的识别某一领域的图片。最让人感兴趣的是该公司提供的定制化推向识别模型训练服务。如果客户需要建立自己的识别模型,只要在现有模型基础上,人通过很简单的代码接口或者网页服务,通过标注少量正负样本图片就可以即时得到一个新的定制化图片识别模型。比如识别你自己养的狗,或者婴儿是不是在婴儿床里的模型。训练一个定制化的图片的识别模型,按传统方法需要数据科学家在昂贵的硬件上,使用大量数据训练几周,而Clarifai提供的定制化识别模型,仅需要几秒钟就可以完成此项工作,大大降低了图像识别技术的应用门槛。

Chainer: A flexible and intuitive framework for complex neural networks Chainer:灵活且符合直觉的负责神经网络框架,Orion Wolfe (Preferred Networks), Shohei Hido (Preferred Networks)

Chainer是由Preferred Networks公司主导的深度学习框架,该公司总部在日本,在旧金山湾区有分支机构。与TensorFlow主要面向解决深度学习的规模化问题,Chainer是完全面向解决深度学习的灵活性问题。Chainer相信90%以上的深度学习问题并没有那么大的规模,都是可以在一台多GPU机器上解决的,但是在不同的行业中,比如机器人,机器手,机械自动化等领域,因为面临的问题是多种多样的,并没有标准模型可用,所以需要灵活的深度学习框架能够高效的支持的模型结构的调整和测试, 而Chainer就是致力于解决这个问题。因此,Chaine采用的是命令式语言。Chainer基于Python接口,为了更高效的使用GPU, 还实现了一个CuPy的基础库,使得Chainer可以更高效的利用GPU。目前Chainer在FANUC 的机器臂,丰田的自动驾驶技术,松下的停车位检测和Amazon Picking Challenge中取得了第二名的好成绩。

The identities of bots: A learning architecture for conversational software聊天机器人也有自己的身份:对话软件的学习框架,Suman Roy (betaworks)

<

作为流量入口的移动应用的下载量,活跃量和留存量都有下降的趋势,下一个兴起的流量入口可能就是聊天机器人,各行各业对聊天机器人越来越感兴趣。对话是最有效的沟通方式,但是聊天机器人要做到有效的跟人沟通需要注意几点:1. 推送人需要的信息;2. 能够从对话中了解用户;3. 能够理解社会,理解用户的社会性,比如政治倾向;4. 具有短暂记忆,能够根据对话的上下文来进行交流;  5. 具有自己的个性。为什么聊天机器人不使用Deep Learning来实现端到端的解决方案?首先因为复杂模型会使得历史数据的价值变差,而历史数据对了解用户很有用。其次,为了防止错误传播的诅咒,必须将技术分层来限制的错误的无限传播。再就是为了使得聊天机器人不冒犯用户,我们需要有办法对聊天机器人进行审计,但是这对深度神经网络是不可能的。

阎志涛 -- AI在生医上的应用

Intel’s new processors:A machine-learning perspective

在AI时代,为了提高模型训练的性能,各个硬件厂商也都在使出浑身解数来通过硬件加速机器学习的性能。作为通用处理器的老大,Intel在这个AI时代自然也不甘落后。整个AI大会Intel和NVIDIA都是主要的赞助商,而NVIDIA更是称自己为深度学习方案公司。为了应对NVIDIA的冲击,Intel的答案是PHI。由于目前AI的发展极度依赖深度学习,而深度学习目前很多的解决方案都是采用GPU,Intel希望自己支持PHI协处理器的XEON CPU能够与GPU抗争,关于新的支持PHI的XEON和XEON的对比,参看下图:

另外Intel也针对机器学习和深度学习开发了针对CPU优化的算法库,希望能够更好的将开发者吸引到自己的平台和解决方案中。对于CPU的选择,如果是普通的机器学习模型训练,Intel建议还是采用普通的Xeon E5处理器,而如果是进行深度学习,则建议采用Intel Xeon Phi。

相信在未来,Intel和NVIDIA在深度学习芯片领域的竞争,还会持续下去。

Genetic architect:Investigating the structure of biology with machine Learning

提到AI,一个非常重要的领域我相信是在健康领域,而基因工程无疑是深度学习可以有用武之地的一个非常重要的部分,国内做基因大数据的创业公司也有不少了。这个Session就是关于深度学习在基因方面的应用,有两个美女进行分享。在美国听大会,经常会存在两个演讲者进行演讲的情况,国内则很少见,这可能也是文化的区别吧。在这个专题中,演讲者主要讲了为什么基因工程适合用深度学习。基因的编码非常类似于计算机的编码,基因部分有结构,类似于计算机语言,而基因的数据量又非常大,因此基因的解码就非常适合用深度学习来做。深度神经网络非常适合进行基因的测序,并且帮助进行疾病的预测。而应用在基因处理的模型是AttentionNet,并且通过对比可以发现AttentionNet比DeepBind和DeepMotif相比都有很大的优势。

Achieving Precision medicine at scale:Building medical AI to predict individual disease evolution in real time

听完了AI在基因方面的应用,紧接着是AI在个人疾病预测方面的应用。演讲者Ash所在的公司Lumiata是一家2013年成立的一家智能医疗创业公司,利用AI的能力实时的帮助医院或者保险公司对一个人的疾病进行预测。在这个演讲中,Ash提到了在精准医疗领域AI具有广阔的前景,但是医疗的数据却又很多的挑战,包括数据脏、数据不一致、各种错误的分类、数据缺失、连续数据少,另外由于数据的来源不同,各种数据的整合也是一个巨大的挑战。

笔者相信,在国内医疗相关的数据情况比美国更差,挑战也更大。对于这些脏数据处理,无疑AI能够起到不错的作用。这点笔者是深感认同,在大数据时代,任何领域的数据都会面临类似的问题,我相信AI在数据处理上有很多可以帮助人们的地方。

对于AI驱动的精准医疗,需要三方面的能力:领域知识、数据科学能力、IT技能,这个和《数据科学指南》中的论述完全相同。具体到支撑实时疾病预测,则和大家认知的差不多:Kafka, Spark,GPU等等。不知道中国的智慧医疗在未来的发展会是怎样呢?

Beyesian program learning for the enterprise

说是AI大会,大部分的技术都是深度学习,不过这个session却不是深度学习,是介绍的Bayesian Program learning,来自于Gamalon公司的CEO Benjamin Vigoda。深度学习依赖于大量的有标注的数据去进行训练,而传统的专家系统则是利用规则以及贝叶斯网络。而Bayesian Program learning则是融合数据驱动和规则驱动的一个机器学习系统。整个系统和第一天的Bansai的理念有一些类似,都是Probabilistic Programming的一种实现思路。从演讲中的例子看,是给定了一个目标照片,然后有一个程序随机的生成线,然后将生成的线的图片与目标照片进行相似度对比,满足要求的留下,不满足要求的抛弃,最终通过这些线就能够生成目标的照片。代码很简单,如下图:

并且演讲者给了一个利用BPL、人以及深度学习在one-shot classification的对比,BPL的效果最好。在深度学习占AI主流的今天,这些新的思路也说不定有很好的未来。

作者介绍:

路瑶:TalkingData 数据科学家 前阿里巴巴算法专家,瑞士洛桑联邦理工大学访问学者,清华大学自动化系硕士。2016年加入TalkingData任数据科学家,负责图算法、时间序列分析等方向。TalkingData全球算法大赛技术负责人。

张夏天:TalkingData首席数据科学家,北京邮电大学硕士毕业,长期从事数据挖掘,机器学习相关领域的研究和应用工作。曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职,2013年加入腾云天下任首席数据科学家,全面负责数据挖掘工作,包括移动应用推荐系统、移动广告优化、移动应用受众画像、移动设备用户画像、游戏数据挖掘、位置数据挖掘等工作。同时负责大数据机器学习算法的研究和实现工作。发表学术论文10篇,申请专利9个。

阎志涛:现任TalkingData研发副总裁,领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。

本科毕业于北京大学大气物理专业,硕士毕业于华北计算计算技术研究所,研究方向为分布式计算系统。在加入TalkingData之前,历任IBM CDL资深架构师,Oracle亚太区首席中间件技术顾问,BEA亚太区首席中间件技术顾问等职务。参与一系列跨国以及大型的国内的中间件、BI等项目。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT