BT

对话机器学习大神Michael Jordan:解析领域中各类模型

作者 张天雷 发布于 2014年10月9日 | ArchSummit全球架构师峰会(北京站)2016年12月02-03日举办,了解更多详情!

乔丹教授(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。因此,很多提问的问题中包含了机器学习领域的各类模型,乔丹教授对此一一做了解释和展望。

首先被提到的就是经典的贝叶斯非参数模型。今年暑假,乔丹教授在Como开设了贝叶斯非参数模型的课程。这个课程里面,他花了很大一部分时间用来介绍完全随机测度的主题和把它们运用在模型中的好处。有一些提问者参与了这个课程,并且提出了一些问题。总结来说就是三个问题:

  1. 是否有一些其他的或者特殊的抽象数学概念和方法,能够让我们用来从中收益并且整合进机器学习领域?其中一个跨学科例子就是Hybrid MCMC,原型基于动态系统理论。
  2. 如今大部分贝叶斯非参数都被应用在了聚类/混合模型、主题模型和图模型。非参数应用的下一个前沿方向将在哪里?
  3. 目前机器学习领域的处理问题的方式非常一般,仅仅是套用很多普遍的模型然后进行大量的计算。这个趋势会继续流行下去吗?是否有希望出现一些不需要那么多数据的方法,比如核心集、Matrix Sketching、随机映射或者主动学习?

乔丹教授非常关心这类问题,特别是第一问。实际上他花了职业生涯的大部分时间尝试将各种数学领域已有的想法应用到新的情景中去,并且乔丹的努力很有成效。但是,他所得到的失败远远大于成功。所以乔丹教授很犹豫是否在这里给出一些很具体的建议,因为这很有可能变成傻子的金子而不是真正的建议。

乔丹教授认为完全随机测度(CRMs)仍然是将来的热点。它们大部分被用在了获得归一化的随机测度(见James, Lijoi and Pruenster的工作),比如随机概率测度。

把思想从归一化常量中解放出来也值得考虑,CRMs就是做的这件事。同时,注意到副词“完全”指的是有用的独立属性,暗指那些还未被发明出来的、分而治之的算法。

通常,CRMs对于非参数就好比指数族对于参数模型的意义,并且乔丹教授现在正在和Tamara Broderick 与 Ashia Wilson合作一篇文章,尝试将这个想法带给大家。注意到指数族在几十年前Larry Brown的开创性专著发型之后已经无人使用了,但是它们仍然还有很多后续发展,比如乔丹和Martin Wainwright的著作,研究了指数族的共轭对耦。

至于非参数应用的下一代前沿方向,乔丹认为这将主要从实际生活中获得实际应用的灵感。在实际生活中,很少一部分人在大规模数据上尝试过贝叶斯非参数模型。一旦实际上开始使用并且取得了一定的成功,这块领域将能够很快发展。

最后,乔丹提到他是核心集、Matrix Sketching、随机映射的忠实粉丝,并且把它们作为基本工具,相信它们仍然会持续发展,因为研究人员已经开始建立更加复杂的、流水线结构。但其实,它们并不是不太需要数据的方法。实际上,它们为整个系统提供了一个可测量的节点让其能够加入更多的数据并且保持准确性。

第二个被提到的是概率图模型。概率图模型(PGMs)是表现联合概率分布结构的一种方式,特别是在条件独立关系和因数分解方面。通过这种方式能够很有效的抓住一些结构的方面,但是仍然有很多其他的联合概率分布的结构是PGM不能够派上用场的。没有一个工具在所有领域中都是有用的,每一个工具都有它自己的适用范围。

在另外一个方面,尽管我们有着限制,但在PGM方面仍然有着很多需要探索。注意到大部分广泛适用的图模型都是链状的,比如HMM模型,CRF也是。在链之外还有树状的,也有很多工作可以继续。

乔丹教授提到,在2003年他介绍LDA模型的时候,仍然能够记得UAI社区的已经在树领域做了很多年工作的研究员说道:“这个模型只是一个树,这怎么值得去研究的?”但是他仍然被以树为基础的结构的研究的进展所激励着,特别是在三个大领域:有机进化生物领域、文档建模还有自然语言处理。比如乔丹最近和Alex Bouchard-Cote一起研究进化树,其节点都是变长的字符串,并且沿着树的边扩展,需要人来推出这棵树和字符串。在主题模型领域,他对于多分辨率的主题树非常感兴趣,这是一个非常有前途的方法,超过了LDA。John Paisley,Chong Wang,Dave Blei和乔丹已经推出了一种网状HDP结构,在这个结构中,文档不再是一个向量而是一个向量的多路下降树。最近,Percy Liang,Dan Klein和乔丹正在主攻自然语言语义的一个研究方向,其中基础的模型是一棵树,但是节点可能是已经被赋值了,这样经典约束满足可能解决一些语义的一阶方面的问题。

最后值得详细说明的一件事,没有理由不能让图模型里面的节点来代表随机集,或随机组合结构,或者一般随机过程。在随机向量的经典设置里面,因子分解可能是很有用的。乔丹说道,在这方面还有很多可以值得探索。


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论
提供反馈
错误报告
商务合作
内容合作
Marketing
InfoQ.com及所有内容,版权所有 © 2006-2016 C4Media Inc. InfoQ.com 服务器由 Contegix提供, 我们最信赖的ISP伙伴。
北京创新网媒广告有限公司 京ICP备09022563号-7 隐私政策
BT

我们发现您在使用ad blocker。

我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。