BT

ディープラーニング技術を使用してIBMは音声認識で新たなマイルストーンを達成

| 作者: Srini Penchikala フォローする 36 人のフォロワー , 翻訳者 編集部T フォローする 1 人のフォロワー 投稿日 2017年4月12日. 推定読書時間: 2 分 |

原文(投稿日:2017/03/31)へのリンク

IBMの調査チームは最近、SWITCHBOARD言語コーパスを使用して、5.5%の単語誤り率で音声認識における新たな業界記録に達したことを発表した。これは、人の誤認率と言われる5.1%に近づいている。人は通常、聞いた20単語のうち1つから2つの単語を聞き逃している。5分の会話では80語程度となる。

研究プロジェクトでは、ディープラーニング技術を適用し、音響モデルを取り入れている。音声認識モデルは、Long Short Term Memory(LSTM)とWaveNet言語モデルを使用し、3つの音響モデルのスコア融合を行った。音響モデルには、複数の特徴入力を備えたLSTMと、スピーカとの対話型マルチタスクラーニングで学習した別のLSTMと、25の畳み込みレイヤと時間拡張された畳み込みを持つ残差ネット(ResNet)を備えた第3のモデルが含まれている。最後のモデルは、陽性の例から学習するが、陰性の例も活用するため、類似の音声パターンが繰り返されるときにより良い結果が得られる。

モントリオール大学のモントリオール学習アルゴリズム研究所(MILA)のYoshua Bengio氏が音声認識についてコメントした。

近年の目覚しい進歩にもかかわらず、音声認識や物体認識のようなAIタスクのパフォーマンスを人と同じレベルに到達させることは科学的な課題として依然として残っています。実際、標準ベンチマークでは、実際のデータの変動や複雑さが現われているとは限りません。たとえば、データセットが異なれば、タスクの異なった側面に多かれ少なかれ影響を与えることになり、その結果は人間のパフォーマンスがどのように評価するかに大きく左右されます。たとえば、音声認識の場合、熟練したプロの転記者を想定するなどが考えられます。

彼はまた、IBMの研究は、音声認識にニューラルネットワークとディープラーニングを音響モデルと言語モデルに適用し、その進歩に貢献していると述べた。

他の音声処理のニュースとして、IBMはDiarizationWatson Speech to Textサービスに追加した。この追加は、会話中に個々の話者を区別するようなユースケースに役立つであろう。これらすべての成果は、人間の耳、声、脳がどのように相互作用するかという複雑さに適合する技術の導入に役立つであろう。

 

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT