BT

GoogleはSpeech-to-Textサービスをディープラーニングモデルでアップグレードした

| 作者: Alexis Perrier フォローする 1 人のフォロワー , 翻訳者 尾崎 義尚 フォローする 0 人のフォロワー 投稿日 2018年5月14日. 推定読書時間: 3 分 |

原文(投稿日:2018/05/09)へのリンク

あなたのリクエストに応じて、ノイズを減らす機能を開発しました。大切な情報を見逃さないよう、お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう。

GoogleがMagentaプロジェクトに由来するText-to-Speechのブレークスルーを発表してから1か月、同社はSpeech-to-Text APIクラウドサービスをメジャーアップグレードした。アップデートされたサービスでは、スピーチトランスクリプションのディープラーニングモデルを活用している。これは、特定のユースケースに合わせており、ショートボイスコマンド、電話とビデオ、その他すべてのコンテキストではデフォルトのモデルである。アップグレードされたサービスは、異なるモデル可用性と、機能レベルを持つ120言語を扱うことができる。ビジネスアプリケーションとしては、電話会議から、コールセンターとビデオトランスクリプションなどがある。トランスクリプションでは、複数スピーカーとバックグラウンドノイズが著しい場合の制度が向上している。

2つの異なる要素がアップグレードを構成している。標準のサービスレベルアグリーメント(SLA)として99.9%の可用性をコミットしている。またサービスには、タグトランスクリプションジョブへの新しいメカニズムと、Googleチームへのフィードバックの提供が含まれている。

特化したモデルは、帯域幅と信号持続時間のサンプリングにより適用される。電話越しのオーディオは8Khzでサンプリングされるため、通常16Khzでサンプリングされるビデオのオーディオと比べて、低品質になる。したがって、メディアタイプごとに最適化されたモデルが必要になる。

ユーザーがモデルを改善するためにGoogleにオーディオを共有するかどうかを選択できるデータロギングと呼ばれるオプトインプログラムと合わせてリリースすることは、クラウドソーシングによる実オーディオのサンプリングによって、モデルを改善するGoogleの戦略の中心にある。データロギングを有効にすると、ユーザーは、パフォーマンスが優れた拡張モデルにアクセスできる。Googleは、標準の電話モデルと比べて54%のワードエラーを削減し、拡張されたビデオモデルから64%のエラーを削減したと発表した。

ベストプラクティスでは、GoogleはFLACのようなロスレスコーデックによるオーディオデータの圧縮、16Khzのサンプリングをして、ノイズ削減や自動ゲイン制御のようなオーディオ事前処理をしないことを推奨している。

ワードエラーの削減は、Speech-to-Text全体の品質を向上させる唯一の要因ではない。句読点予測(Punctuation prediction) は、重要で、スピーチトランスクリプションの挑戦的な側面である。GoogleのSpeech-to-Text APIは、トランスクライブされたテキストに句読点を追加する機能を持ち、長いオーディオシーケンスから作成されたテキストの可読性がさらに向上された。自動句読点機能は、LSTMニューラルネットワークモデルを活用する。

Google Researchが提示した音声認識と音声認識に関する出版で、Speech-to-Textのディープラーニングには、機械翻訳やテキスト要約にも適用できるsequence-to-sequenceニューラルネットワークモデルがベースになることがある。つまり、Seq2seqモデルは、まずLSTMがオーディオ入力のエンコードに使われ、2番目にトランスクライブされたテキストにデータをデコードして変換する入力シーケンスに条件づけられたLSTMが使われる。

その他のSpeech-to-Textサービスとして、29言語をサポートするMicrosoft speech recognition API、7以上の言語をサポートするIBM Watson API、2017年11月にリリースされたAmazon Transcribeは、英語とスペイン語の音声のみが利用できる。 フロリダ工科大学による最近の比較によると、GoogleサービスAPIのエラー率が低かった。その他の比較テストでは、音声認識サービスにおける待ち時間の重要性を強調している。

 
 

Rate this Article

Adoption Stage
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT