BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

用深度神经网络生成以假乱真的“照片”

| 作者 杨赛 关注 3 他的粉丝 发布于 2016年12月26日. 估计阅读时间: 8 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

2016年12月20日,The Verge发布了一篇报道《Artificial intelligence is going to make it easier than ever to fake images and video》(姑且译为《AI,人类再也无法阻挡的P图大师》)。其中,进化AI实验室 Evolving AI Lab 的实验室主任Jeff Clune分享了大量近年来AI在图像处理方面的进展。

本文整理出该报道中提及的论文和项目,以供参考。此外,Evolving AI Lab近年来还有很多各方面的有趣成果,也在此推荐。

从DeepVis到PPGN

2015年,深度神经网络(DNN)已经能够比较准确的识别照片类图像中的各种对象。然而,当人们尝试用DNN去生成指定对象类型的图像(比如,一辆校车)时,却发现完全不是那么一回事。

图:DNN生成的“校车”

Anh Nguyen、Jason Yosinski和Jeff Clune在CPVR'15发布了一篇论文Deep neural networks are easily fooled,介绍他们把此类生成的图像丢给其他的DNN(包括当时最前沿的LeNet)进行辨认,结果发现大部分DNN都开始“犯傻”:

图:LeNet认为上面这几张图都是手写的数字“0”

接下来,该研究组进一步深入探索:DNN在学习过程中究竟发生了什么?其识别一粒棒球、一辆校车或一个手写数字的依据是什么,为何会把在人眼看来完全无意义的图像识别为有意义的对象?同年,他们在ICML上又发布了一篇报告Understanding Neural Networks Through Deep Visualization论文下载),并在Github上分享了论文中用到的工具DeepVis Toolbox。通过该工具,人可以直观的看到当DNN接受到一张图片时,具体活跃的是哪些神经节点,以及不同的神经节点是因为哪些特征而被触发。

图:当前选中的神经节点对“车轮”产生了反应

由此,研究组得以发现,当时大部分的DNN在识别图像中对象的过程中主要依据的特征是一些局部的独特痕迹(如豹子身上的斑点、校车的黑黄色),而忽略了整体特征(如海星的五角星形状、豹子长了四条腿)。

知道了DNN所忽略的特征,从而有针对性的进行算法的改进,就有可能大幅提升DNN生成指定图像的能力。2016年,该研究组先后发布了两篇论文介绍Deep Generator Networks(DGN)以及其改良版Plug & Play Generative Networks(PPGN),这些改良后的神经网络——创作网络 Generator Network——足以生成以假乱真的图片:

图:PPGN生成的火山“照片”

图:向PPGN输入词组“a_church_steeple_that_has_a_clock_on_it”所获得的图像

现在,深度神经网络的“创作能力”已经能够胜任很多复杂的工作,比如各种“玩脸”、改图,甚至还能够给视频自动配音。

2015-2016,AI的创作力

用2D照片创建人脸3D模型

Shunsuke Saito等人于2016年12月发布在ArXiv的论文中介绍了一种方法,通过深度神经网络提取2D照片中的人脸特征,创建出完整的面部3D模型。点击这里查看该论文在YouTube上的介绍视频

图:根据低分辨率照片生成的面部3D模型

Smile Vector

Tom White@dribnet)在2016年5月上线了一个Twitter机器人Smile Vector,可自动为图片中的人脸添加微笑(以及其他表情)。相关论文Sampling Generative Networks在2016年9月发布,并在2016年12月的NIPS大会上进行了演示

Face2Face

Justus Thies等人发布在CVPR 2016上的报告Face2Face: Real-time Face Capture and Reenactment of RGB Videos中介绍了一种方法,将摄像头前(就是普通的消费级摄像头)的演员的面部表情“实时移植”到一段视频中的人物脸上。

图:“表情移植”

川普变光头

Samson,一个将辩论视频中的川普实时替换成光头的小程序。

图:变成光头的川普

永驻银屏的Joey

Virtual Immortality,来自英国利兹大学的研究成果,发布在2016年10月的VARVAI Workshop。该研究组让神经网络学习了236集《老友记》,实现了一个“可以在任何视频中乱入、做各种Joey风格动作、讲各种Joey风格台词的Joey”(论文下载)。

图:AI生成的乱入Joey

照片补光(Image Relighting)

微软研究院在SIGGRAPH 2015上发布的报告Image Based Relighting Using Neural Networks介绍了一种给照片补光的深度学习方法。该成果被Two Minute Papers做成了视频短片发布在YouTube

图:用深度神经网络给照片补光

把照片变成梵高的画

画风移植(Style Transfer)是一项已经在图像处理领域发展了多年的技术。The Verge的这篇报道中提及了一个用神经网络进行艺术作品画风移植的实现,源自Leon A. Gatys等人在2015年8月发布的一篇论文A Neural Algorithm of Artistic Style,其效果如下:

该研究组已经将论文中使用的代码分享至Github,普通用户可以在Deepart网站或者Prisma App上体验该算法的效果。此外,Facebook App也在2016年底上线了类似的实现相关论文在此查看)。

看图创作配音

MIT AI实验室在2015年12月发布的论文Visually Indicated Sounds下载),介绍一种根据图像生成匹配声音的算法。该算法使用一个循环神经网络 recurrent neural network,根据视频中的图像内容(如草坪、水、塑料袋或布料被其他物体触碰)预测声音的特征,并基于声音库生成对应的波形。

总结

如上所述,AI的“创作能力”正在快速提升。此类创作能力将适用于图像、音视频、文字等各种媒介,并且快速的从实验室走到普通消费者的手中。在这一过程中,相信无论对于开发者还是对于内容创作者,都蕴藏着大量的机遇。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT