BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI社、GPT-4oの画像生成機能改善を発表

OpenAI社、GPT-4oの画像生成機能改善を発表

原文リンク(2025-04-01)

OpenAI社が、ネイティブ画像生成機能を搭載したGPT-4oの新バージョンをリリースした。。今回のモデルでは、アップロード画像の修正やプロンプト指示による画像生成が可能になったほか、一貫性を保った複数バージョンの画像生成機能や画像内テキスト生成機能が改善されている。

OpenAI社のCEO Sam Altman氏は、先日のライブストリームで今回のリリースを公表した。従来モデルでの画像生成では、会話型モデルとのインテレーションを通したDALL-Eなどの外部モデルの呼び出しが必要であった。一方、今回発表となるモデルでは、画像出力がネイティブなモーダル機能となるようトレーニングされている。今回のモデルでは自己回帰型画像生成手法が、また、DALL-EやStable Diffusionといったモデルでは拡散型画像生成手法がそれぞれ取り入れられている。OpenAI社の見解は、以下の通りである。

GPT-4oを画像生成は、テキストレンダリング正確性、プロンプトの順守、4o固有のナレッジベースとチャットコンテキストの活用に秀でており、アップロード画像の変換や画像からビジュアルインプレッションを得ることも可能です。こうした機能を実装することで、思い通りのイメージ画像が作成可能です。ビジュアルコンテンツを通じたコミュニケーションの効率向上に加え、画像生成が正確で強力な実用的ツールへと進化することでしょう。

OpenAI社では、GPT-4oのトレーニングに「積極的な事後学習」を含んだ画像データとテキストデータを合わせた新しい形式を採用している。技術的詳細やベンチマークスコア性能は伏せられているが、同社からサンプル画像や生成に使用されたプロンプトが公開済みだ。同社は、今回のモデルで「最大で10~20個の異なるオブジェクト」を含む画像の生成が可能としつつも、「それ以上のオブジェクトの正確なレンダリングが困難になりうる」との見解を示している。

GPT-4oを使用した生成画像には、AIで生成されたことを示すC2PAタグが内臓されており、これが安全機能としての役割を担っている。またOpenAI社では、自社モデルの生成画像かを判断するのに役立つ内部ツールの構築も行っている。同社では自社コンテンツポリシーに違反する画像生成をブロックしている。CPOのKevin Weil氏は以下のようにXに投稿している。

常識に反しない範囲であれば、エッジの効いた要求をした場合でも、このモデルはユーザーの意図を尊重するでしょう。モデル仕様の中でお伝えいたしました通り、弊社はユーザーへのクリエイティブコントロールの提供に重きを置いており、今後もフィードバック聞き取りや取り入れに努めてまいります。

OpenAI社では、GPT-4oモデルのSystem Cardをアップデートしており、広範囲にわたるレッドチーム演習を含む潜在的なリスク検知や今回実装となるミティゲーションが記述されている。System Cardでは、画像生成の除外対象になるケースも規定されている。除外対象例としては、存命中のアーティストのスタイルを模倣した画像を生成するプロンプトが挙げられる。しかし、従来モデルでは公人画像は画像生成対象外であったが、今回の変更を受けて同社のポリシーに反しない限りでの生成が可能になっている。

Hacker Newsでは、生成画像のクオリティに関するコメントが上がっており、特に画像内テキストのレンダリング処理の正確性が言及されている。以下はユーザー感想の一例である。

一見すると、このレンダリング機能の向上は新しいアーキテクチャの副産物のように思えるかもしれません。しかし私の経験上、ChatGPTに搭載されていた従来のDALL-Eの生成画像はテキストの見栄えは格段に良いものの、複数文字を印刷した場合に生じる大きな歪みが依然として問題視されていました。 今回のモデルの更新を受け、少なくとも明確なテキスト内容の指定がある場合、テキストレンダリングが大幅に改善されたようです。

OpenAI社は、本モデルがラテン文字以外を使用する言語のレンダリングに「苦戦」しており、生成テキストに「正確性の問題」や「ハルシネーション」が生じる可能性があると指摘している。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT