BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI、低遅延音声対話向けのRealtime APIのパブリックベータ版を発表

OpenAI、低遅延音声対話向けのRealtime APIのパブリックベータ版を発表

原文リンク(2024-10-14)

OpenAIが、Realtime APIのパブリックベータ版を発表した。今回のリリースでは、開発者にアプリ内での低遅延かつマルチモーダルな音声対話が提供される。さらに、音声入力/出力がChat Completions APIで利用可能になり、音声駆動型アプリケーションの選択肢が広がった。初期のフィードバックでは、ChatGPTのアドバンスドボイスモードと同様に、音声オプション数や応答の切断といった制限に関心が集まっている。

Realtime APIで、音声の認識と合成を1つのAPIコールに統合することで、6つの初期設定音声を使用したリアルタイムで自然な音声対話が可能になる。これにより、従来は複数モデルを必要だった箇所が効率化され、円滑な対話を目的としたアプリケーションの開発が簡素化される。

また、OpenAIは、音声入出力のサポートを追加することで、Chat Completions APIの機能を拡張した。この機能は、Realtime APIの低遅延処理を必要としないユースケースに向けられたもので、開発者はテキストまたは音声入力を送信し、応答をテキストか音声のいづれか、または両方で受け取ることができる。

従来は、音声アシスタントのエクスペリエス作成には、自動音声認識、テキスト推論、テキスト読み上げなど、異なるタスクに複数のモデルを使用する必要があった。 その結果、遅延の発生やニュアンスが失われることがよくあった。Realtime APIは、全てのプロセスを1つのAPIコールに効率化することでこれらの問題に対処し、よりスピーディーで自然な対話機能を提供している。

Realtime APIは、持続的なWebSocket接続によって確立されており、GPT-4oとの途切れのないメッセージ交換が可能である。また、Function Callingもサポートしており、音声アシスタントによる注文や関連するユーザーデータの取得などのタスクが実行でき、よりパーソナライズ化された対応が可能だ。

さらに、コミュニティーでは、APIはPlaygroundからアクセス可能だが、現在利用可能な音声オプションがalloy、echo、shimmerに限られている点に注目が集まっている。テスト段階で、応答がChatGPTのアドバンスドボイスモードと同様の制限を受けることにユーザーが気づいた。詳細なシステムメッセージの使用を試みると応答が切断されてしまうのだ。これにより、会話フローを管理する別のモデルの関与が示唆されている。

Realtime APIのパブリックベータ版は、有料デベロッパー向けに提供されている。Chat Completions APIの音声は数週間以内にリリース予定だ。Realtime APIの価格設定には、テキストトークンと音声トークンの両方が含まれており、音声入力は1分あたり約0.06ドル、音声出力は1分あたり0.24ドルである。

この価格設定が長時間の対話使用にどのような影響を与えるかが懸念されている。開発者の中には、本モデルが応答ごとに以前のやり取りの再考処理を行うため、コストがすぐに嵩む可能性を指摘する者もいた。大規模言語モデルに短期記憶がなく、以前の内容を再処理しなければならない点を考えると、特に長時間の対話における有用性については、見解が分かれそうである。

Realtime APIをより詳しく知りたい開発者の方は、公式ドキュメントクライアントリファレンスをご参照ください。

作者について

この記事に星をつける

おすすめ度
スタイル

BT