BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

创新性应用深度学习,IBM在语音识别领域取得了里程碑式突破

| 作者 Srini Penchikala 关注 36 他的粉丝 ,译者 Rays 关注 3 他的粉丝 发布于 2017年4月11日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

最近,IBM的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录,在使用SWITCHBOARD语料库的情况下词错误率为5.5%,接近于人类的错误率5.1%。人们一般会在所听到的20个单词中遗失其中的一到两个。在一次五分钟左右的对话中,大约会遗失80个词。

研究计划中包括深度学习技术的应用和声学模型的集成。其中语音识别模型使用了长短期记忆(LSTM,Long Short Term Memory)和 WaveNet语言模型。在声学模型上,他们使用了三个模型的分数融合(Score Fusion)。第一个模型是有多特征输入的LSTM,第二个模型是经过说话者对抗多任务学习(Speaker-adversarial Multi-task Learning)训练后的LSTM。第三个模型是具有25个卷积层与时间扩张(Time-dilated)卷积的残差网络(ResNet)。最后一个模型不仅从正向的例子中学习,而且也使用了负向的例子,因此当类似的语音模式重现时,会具有更好的表现。

来自蒙特利尔大学蒙特利尔学习算法实验室(Montreal Institute for Learning Algorithms )的Yoshua Bengio对语音识别技术是如此评论的:

在过去的几年中,尽管在语音识别或物体识别等人工智能领域取得了巨大的进展,技术上也已经接近于人类的水平,但在科学上依然存在着挑战。诚然,标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如,不同的数据集对于不同的任务会呈现出不一样的敏感性,而且结果十分依赖于如何对被测试人员进行评估,比如使用专业的誊写员进行语音识别测试。

他也指出,IBM的这项研究将声学模型与语言模型应用于神经网络与深度学习,有助于推进语音识别技术的发展。

另据一些语音识别相关的新闻报道,IBM已将Diarization添加到他们的“Watson语音转文本”服务中。这一技术有助于一些用例的实现,例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。

查看英文原文: Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition


感谢薛命灯对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT