Googleのユニバーサルスピーチモデルが数百の言語の音声認識を実現

Google Researchは、1,200万時間以上のスピーチ音声で学習させた2Bパラメータの自動音声認識（ASR）モデルであるUniversal Speech Model（USM）を発表した。USMは、低リソース言語を含む100以上の言語の音声を認識でき、いくつかのベンチマークで新しい最先端の性能を達成した。

このモデルと実験は、arXivに掲載された論文に記載されている。USMは、Conformerベースのエンコーダをバックボーンとして使用し、300以上の言語を含むYouTube動画のラベルのない音声に対して教師なしで学習させる。また、Googleチームは、長時間の音声入力でConformerモデルによく見られる品質劣化の問題を解決するため、ネットワーク・アーキテクチャに新しいチャンクワイズ・アテンション機構を導入した。Googleチームは、下流タスクのためにモデル全体を微調整するのではなく、ASRと自動音声翻訳（AST）タスクのために、フローズンエンコーダーに小さなアダプターネットワークユニットを追加した。Googleは以下のように説明する。

USMは...英語や北京語のような広く話されている言語だけでなく、パンジャビ語、アッサム語、サンタル語、バリ語、ショナ語、マラガシ語、ルガンダ語、ルオ語、バンバラ語、ソガ語、マニンカ語、ショサ語、アカ語、リンガラ語、チチェワ語、ニャンコレ語、ンゼマ語などの言語でも自動音声認識 (ASR) を実行できる。これらの言語の中には、2,000万人以下の人口で話されているものもあり、必要な学習データを見つけるのは非常に困難である。我々は、ラベルのない大規模な多言語データセットを利用してモデルのエンコーダを事前学習し、より少ないラベル付きデータセットで微調整することで、学習データの少ない言語であっても認識できることを実証する。さらに、我々のモデル学習プロセスは、新しい言語やデータへの適応に有効である。

USMは、音声のみ、テキストのみ、音声とテキストのペアという3種類のデータを用いて、3段階で学習させた。最初の学習段階では、教師なし学習を使って、音声のみのデータでConformerエンコーダーのバックボーンを学習したのである。具体的には、300の言語からなる1200万時間のYouTube音声と、51の言語からなる42万9000時間の音声を含む公開データセットだ。次の段階では、MOST（Multi-Objective Supervised pre-Training）を用いて、3種類のデータすべてについてエンコーダーのトレーニングをした。最終段階では、タスクに特化したモデルの微調整をする。フルモデルを微調整する代わりに、エンコーダーを凍結し、タスクに特化した小さなアダプターを微調整することで、より良い結果を得られた。

USM Training Pipeline. Image Source: https://arxiv.org/abs/2303.01037

Googleチームは、複数のASRおよびASTベンチマークでUSMを評価した。USMは、SpeechStew、FLEURS、CoVoSTを含む複数のベンチマークで、新しい最先端の性能を達成したのである。また、73言語の音声を含むYouTubeのキャプションデータセットで、USMは30%以下の単語誤り率（WER）を達成した。Googleによると、このデータセットから"73言語すべてのデコードに成功した公開モデルはない。"また、研究者はUSMをOpenAIのWhisperモデルと比較し、"Whisperが40%以下のWERでデコードに成功した18言語"においてUSMがWhisperを上回ったとしている。

Hacker NewsでのUSMに関する議論では、利用可能な学習データの少なさを考慮し、低リソース言語でのUSMのパフォーマンスを評価するユーザーが複数いた。ある人はこう指摘する。

これは、コアエンコーダーモデル（大量のデータを持つ一般的な言語で学習したモデル）が、あらゆる言語の一般化された基本を学習するのに非常に優れていることを意味する。そして、最後に小言語の比較的少ない量のラベル付きデータを入力する（教師ありファインチューニング。パラメータは繰り返し調整されるため、最新のトレーニングデータが最終的な性能にもっとも大きな影響を与える）。このモデルは、言語間の文法に関する一般的な"理解"を十分に持っているので、その小さなラベル付きセットから得られないギャップを埋めることができる。

USMは現在、Google Cloud Platform上でプライベートホストされた推論APIを通じてのみ利用可能だ。ユーザーはアクセスをリクエストする必要があり、"研究者や機関 "に優先権が与えられている。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Googleのユニバーサルスピーチモデルが数百の言語の音声認識を実現

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。