OpenAIが文字起こしと音声合成用の新音声モデルを発表

原文リンク(2025-04-01)

OpenAIはAPIにおいて、文字起こしの精度向上とAI生成音声の制御性向上にフォーカスした新しい音声認識と音声合成モデルを導入した。これらのアップデートは自動音声アプリケーションを強化し、さまざまな環境やユースケースにさらに適応できるようにすることを目的としている。

新しいgpt-4o-transcribeおよびgpt-4o-mini-transcribeモデルは単語誤り率（WER）を改善し、Whisper v2およびv3を含む旧バージョンを上回る性能を発揮する。これらのモデルはアクセント、バックグラウンドノイズ、話速のバリエーションに対する対応能力が向上しており、カスタマーサポートの電話、会議の文字起こし、多言語会話といった現実世界でのシナリオにおいて信頼性が向上している。

diagram WER

出典：OpenAIブログ

強化学習やより多様なデータセットへのアクセスを含むトレーニングの改良により、文字起こしエラーが減少し話し言葉の認識精度が向上している。これらのモデルは現在、speech-to-text APIを通じて利用できる。

gpt-4o-mini-ttsモデルは新しいレベルの制御性を提供しており、これにより開発者はAIがどのように話すべきかを指示できるようになった。例えば共感的なカスタマーサービスや魅力的なストーリーテラーのような応答を指定できる。このような柔軟性の追加により、自動アシスタンス、ナレーション、コンテンツ作成など、さまざまなコンテキストに合わせてAI生成音声を調整することが容易になる。

音声は依然として合成的だがOpenAIは多様なアプリケーションニーズに応えられるよう、一貫性と品質の維持にフォーカスしている。

新モデルに対する反応はポジティブだ。BusinessCoDe GmbHのプロジェクト管理責任者 Harald Wagener氏は、利用可能な音声オプションの幅広さをハイライトし、こう語る：

ユースケースに最適なスタイルを見つけることができる素晴らしいプレイグラウンドです。そして素晴らしいサウンドです。開発と共有に感謝します！

Luke McPhail氏はOpenAIのモデルを他の業界製品と比較し、こう述べた：

OpenAI FMの第一印象：ElevenLabsのようなAI音声リーダーにはまだ及ばないかもしれませんが、それは問題ではないかもしれません。巨大な市場シェアと使いやすいAPIは、開発者にとって魅力的です。

開発者たちもモデルのシームレスな統合と使いやすさを評価している。OpenAIの音声モデルはまだ専門的な音声ソリューションには及ばないかもしれないが、そのアクセシビリティと構造化されたAPIによって多くのアプリケーションにとって実用的な選択肢になると指摘する声もある。

これらの新しい音声認識および音声合成モデルは現在利用可能である。開発者はAgent SDKを使用してアプリケーションにこれらを統合でき、音声機能を追加するプロセスを簡素化できる。

OpenAIは音声モデルの知能と精度をさらに向上させる計画を立てており、開発者がより個別化されたアプリケーションのためにカスタム音声を作成するための方法を模索している。これらの機能が安全性と倫理基準に適合していることを保証することが引き続き優先事項である。

作者について

Robert Krzaczyński

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

OpenAIが文字起こしと音声合成用の新音声モデルを発表

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。