あなたのリクエストに応じて、ノイズを減らす機能を開発しました。大切な情報を見逃さないよう、お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう。
GoogleがMagentaプロジェクトに由来するText-to-Speechのブレークスルーを発表してから1か月、同社はSpeech-to-Text APIクラウドサービスをメジャーアップグレードした。アップデートされたサービスでは、スピーチトランスクリプションのディープラーニングモデルを活用している。これは、特定のユースケースに合わせており、ショートボイスコマンド、電話とビデオ、その他すべてのコンテキストではデフォルトのモデルである。アップグレードされたサービスは、異なるモデル可用性と、機能レベルを持つ120言語を扱うことができる。ビジネスアプリケーションとしては、電話会議から、コールセンターとビデオトランスクリプションなどがある。トランスクリプションでは、複数スピーカーとバックグラウンドノイズが著しい場合の制度が向上している。
2つの異なる要素がアップグレードを構成している。標準のサービスレベルアグリーメント(SLA)として99.9%の可用性をコミットしている。またサービスには、タグトランスクリプションジョブへの新しいメカニズムと、Googleチームへのフィードバックの提供が含まれている。
特化したモデルは、帯域幅と信号持続時間のサンプリングにより適用される。電話越しのオーディオは8Khzでサンプリングされるため、通常16Khzでサンプリングされるビデオのオーディオと比べて、低品質になる。したがって、メディアタイプごとに最適化されたモデルが必要になる。
ユーザーがモデルを改善するためにGoogleにオーディオを共有するかどうかを選択できるデータロギングと呼ばれるオプトインプログラムと合わせてリリースすることは、クラウドソーシングによる実オーディオのサンプリングによって、モデルを改善するGoogleの戦略の中心にある。データロギングを有効にすると、ユーザーは、パフォーマンスが優れた拡張モデルにアクセスできる。Googleは、標準の電話モデルと比べて54%のワードエラーを削減し、拡張されたビデオモデルから64%のエラーを削減したと発表した。
ベストプラクティスでは、GoogleはFLACのようなロスレスコーデックによるオーディオデータの圧縮、16Khzのサンプリングをして、ノイズ削減や自動ゲイン制御のようなオーディオ事前処理をしないことを推奨している。
ワードエラーの削減は、Speech-to-Text全体の品質を向上させる唯一の要因ではない。句読点予測(Punctuation prediction) は、重要で、スピーチトランスクリプションの挑戦的な側面である。GoogleのSpeech-to-Text APIは、トランスクライブされたテキストに句読点を追加する機能を持ち、長いオーディオシーケンスから作成されたテキストの可読性がさらに向上された。自動句読点機能は、LSTMニューラルネットワークモデルを活用する。
Google Researchが提示した音声認識と音声認識に関する出版で、Speech-to-Textのディープラーニングには、機械翻訳やテキスト要約にも適用できるsequence-to-sequenceニューラルネットワークモデルがベースになることがある。つまり、Seq2seqモデルは、まずLSTMがオーディオ入力のエンコードに使われ、2番目にトランスクライブされたテキストにデータをデコードして変換する入力シーケンスに条件づけられたLSTMが使われる。
その他のSpeech-to-Textサービスとして、29言語をサポートするMicrosoft speech recognition API、7以上の言語をサポートするIBM Watson API、2017年11月にリリースされたAmazon Transcribeは、英語とスペイン語の音声のみが利用できる。 フロリダ工科大学による最近の比較によると、GoogleサービスAPIのエラー率が低かった。その他の比較テストでは、音声認識サービスにおける待ち時間の重要性を強調している。
Rate this Article
- Editor Review
- Chief Editor Action