BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI社、信頼性重視の新モデル『o3-pro』を発表――ユーザーフィードバックは賛否で二極化

OpenAI社、信頼性重視の新モデル『o3-pro』を発表――ユーザーフィードバックは賛否で二極化

原文リンク(2025-06-17)

OpenAI社が、複雑なタスクでの信頼性や応答の分析力に注力した同社最先端モデルの新バージョンo3-proをリリースした。現時点では、ChatGPTのPro・Teamユーザーに公開されているほか、API経由でも利用が可能である。本モデルが従来の「o1-pro」モデルに置き換わる形でリリース中だ。

o3-proはo3のアーキテクチャを基盤に開発されており、従来通りのPython連携機能やファイル分析機能、Webブラウジング機能、画像解釈機能などが継続して利用できるため、多角的な課題解決への利用が可能だ。o3-proは、処理スピードより応答の正確性・深さを重視するユーザー向けのモデルである。同社は、o3-proを使用した場合、軽量モデルよりも応答生成に時間がかかる可能性があると指摘している。

同モデルは、コーディング部門や数学・科学部門でのベンチマークスコアが改善されている。OpenAI社は、4回の試行のうち4回とも連続で正解した場合のみ問題解決とする「4/4の信頼性」テストを実施したところ、o3-proがo1-proや開発基盤となったo3を上回る性能を示したと報告している。また、この最新モデルでは、明確性、プロンプト実行機能、特定分野で高い評価を出しており、特にSTEM部門、文章生成、ビジネス分野に優れていることが確認されている。

情報元:help.openai.com

一部のユーザーからは、従来モデルに比べo3-proは実用的機能が向上しているという声も上がっている。以下は、肯定的なコメントの一例である。

o3-proは「o3」という名称の違い以外では、o1-proと大差がありません。今後も革新的な変化をもたらすことないでしょう。ですが、従来モデルではタスクの閾値をわずかにオーバーしてしまっていたタスクも対応可能になるかもしれません。ここが実現できた場合は、大幅な生産性の向上につながることでしょう。

だが、一方で初期段階のテスターからは、懸念の声も上がっている。処理スピードの低速化が争点だ。

アルゴリズムを使用した問題回答の精度はおおむね良好です。ですが、問題は生成までの時間の長くて…。AndroidやMacOSでアプリのタイムアウトが頻発してしまっています。

他のユーザーからはハルシネーションの問題が解決されていないのではないかという疑問の声も出ている

個人的には、フルバージョンのo3の高い性能に驚かされていた時期もありましたが、最近になって生成される回答に含まれるハルシネーションがいかに多いかがわかりました。o3モデルには、まだ大きな課題があると感じています。残念ながら、o3-proでこういったハルシネーションの問題が解消できているとは思えません。ChatGPTでプロンプト指示を出す際には、必ず情報源を提示し、直接引用も含めた回答を生成するようにカスタマイズ設定をしています。ハルシネーションの削減を狙っていたのですが、効果はありませんでした。ChatGPTに医療関連の質問投げることが多いのですが、存在しない数値やデータを作り上げて、自作した情報をソースとして引用するだけになることが非常に多いのです。

こうしたChatGPTの精度に対して、ユーザーから幅広い批判が集まっている。

現状のところ、私の業務に利用する汎用型モデルにこれ以上の学習機能は必要ありません。ただハルシネーションの心配や回答生成の速度、価格が改善された特定の分野の正確な専門性を持っているモデルがあればそれでいいのです。今後のChatGPTは、こうした生成データの精度に関する改善に注力していくべきだと考えています。

現段階では技術面での制約から、o3-proは画像生成機能、Canvas機能、または一時チャット機能がサポートできていない点にご留意いただきたい。これらの機能は、GPT-4oやo4-miniなどの他の既存モデルからは従来通り利用可能である。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT