OpenAIはAPIにおいて、文字起こしの精度向上とAI生成音声の制御性向上にフォーカスした新しい音声認識と音声合成モデルを導入した。これらのアップデートは自動音声アプリケーションを強化し、さまざまな環境やユースケースにさらに適応できるようにすることを目的としている。
新しいgpt-4o-transcribeおよびgpt-4o-mini-transcribeモデルは単語誤り率(WER)を改善し、Whisper v2およびv3を含む旧バージョンを上回る性能を発揮する。これらのモデルはアクセント、バックグラウンドノイズ、話速のバリエーションに対する対応能力が向上しており、カスタマーサポートの電話、会議の文字起こし、多言語会話といった現実世界でのシナリオにおいて信頼性が向上している。
出典:OpenAIブログ
強化学習やより多様なデータセットへのアクセスを含むトレーニングの改良により、文字起こしエラーが減少し話し言葉の認識精度が向上している。これらのモデルは現在、speech-to-text APIを通じて利用できる。
gpt-4o-mini-ttsモデルは新しいレベルの制御性を提供しており、これにより開発者はAIがどのように話すべきかを指示できるようになった。例えば共感的なカスタマーサービスや魅力的なストーリーテラーのような応答を指定できる。このような柔軟性の追加により、自動アシスタンス、ナレーション、コンテンツ作成など、さまざまなコンテキストに合わせてAI生成音声を調整することが容易になる。
音声は依然として合成的だがOpenAIは多様なアプリケーションニーズに応えられるよう、一貫性と品質の維持にフォーカスしている。
新モデルに対する反応はポジティブだ。BusinessCoDe GmbHのプロジェクト管理責任者 Harald Wagener氏は、利用可能な音声オプションの幅広さをハイライトし、こう語る:
ユースケースに最適なスタイルを見つけることができる素晴らしいプレイグラウンドです。そして素晴らしいサウンドです。開発と共有に感謝します!
Luke McPhail氏はOpenAIのモデルを他の業界製品と比較し、こう述べた:
OpenAI FMの第一印象:ElevenLabsのようなAI音声リーダーにはまだ及ばないかもしれませんが、それは問題ではないかもしれません。巨大な市場シェアと使いやすいAPIは、開発者にとって魅力的です。
開発者たちもモデルのシームレスな統合と使いやすさを評価している。OpenAIの音声モデルはまだ専門的な音声ソリューションには及ばないかもしれないが、そのアクセシビリティと構造化されたAPIによって多くのアプリケーションにとって実用的な選択肢になると指摘する声もある。
これらの新しい音声認識および音声合成モデルは現在利用可能である。開発者はAgent SDKを使用してアプリケーションにこれらを統合でき、音声機能を追加するプロセスを簡素化できる。
OpenAIは音声モデルの知能と精度をさらに向上させる計画を立てており、開発者がより個別化されたアプリケーションのためにカスタム音声を作成するための方法を模索している。これらの機能が安全性と倫理基準に適合していることを保証することが引き続き優先事項である。