BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

rss
  • 他的粉丝

    ICASSP Poster论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升20%

    作者 张仕良等 关注 0 他的粉丝 发布于  2018年3月16日

    本研究提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。

  • 他的粉丝

    实时语音视频通话SDK如何实现听声辨位

    作者 冼牛 关注 0 他的粉丝 发布于  2017年11月7日

    通过听声音可以辨别声源的位置,这是我们习以为常的生活认知。从技术的角度来说,听声辨位其实真的一点都不简单。我们人类应该感谢上天的造化,赋予我们一双巧夺天工的耳朵,让我们可以毫不费力地做到听声辨位。在语音视频实时通信的世界里,要实现听声辨位,却是要耗费一番心思的事情。

  • 他的粉丝

    游戏实时语音解决方案是怎么炼成的

    作者 冼牛 关注 0 他的粉丝 发布于  2017年6月9日

    现在的问题是,不管是自行研发实时游戏语音方案,还是采用第三方游戏实时语音SDK,都必须要先为游戏量身订造一套解决方案。这套解决方案必须是和游戏本身的用户需求、考量因素、及应用场景紧密结合的。把通用的语音视频通讯方案直接拿来给游戏用是不适合的。 今天,我们就一起来深度聊一聊,怎么针对游戏的应用场景订造游戏实时语音解决方案。

他的粉丝

多语言和跨语言语音识别

作者 俞栋 邓力 关注 0 他的粉丝 发布于  2016年9月7日

InfoQ开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自俞栋、邓力著《解析深度学习:语音识别实践》中的第12章,介绍多语言和跨语言语音识别的内容。

他的粉丝

微软牛津计划,轻松打造自然语言应用

作者 董志南 关注 0 他的粉丝 发布于  2016年1月26日

牛津计划是微软于2015年发布的一系列API,包含计算机视觉、语音识别和语言理解。旨在帮助开发者轻松打造自己的应用程序,而无需深刻理解其背后复杂的实现原理。那么牛津计划中的语音识别和语言理解的技术服务究竟是什么样的,它们是如何被研发出来的呢?

他的粉丝

SDN & OpenStack漫谈(下)

作者 马力 关注 1 他的粉丝 发布于  2015年11月3日

本篇文章是SDN & OpenStack的实践总结,里面介绍了多种解决方案以及对未来技术发展的看法。

他的粉丝

智能眼镜产业现状及开发者的新机遇

作者 杨赛 关注 3 他的粉丝 发布于  2014年9月26日

今年的QCon上海大会有一个跟以往不同的专场:由李大维出品的智能硬件专场。本场的分享者当中有一家台湾公司,目前在全球智能眼镜市场中非常活跃。近日,InfoQ中文站编辑与该公司中国区负责人李传勍(Tibor Lee)进行了采访,Tibor分享了当前智能眼镜市场的现状以及他对该行业发展的一些思考。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT