OpenAIは、大規模言語モデル(LLM)のGPTファミリーの次世代であるGPT-4を発表した。GPT-4は、テキストと画像の両方の入力を受け付け、いくつかの自然言語処理(NLP)ベンチマークにおいて、最先端のシステムを凌駕している。また、このモデルは、模擬司法試験で90%台のスコアを記録している。
OpenAIの社長兼共同設立者であるGreg Brockman氏は最近のライブストリームでこのモデルの能力を披露した。このモデルは前世代モデルであるGPT-3.5と同じインフラを使って学習しており、ChatGPTと同様に人間のフィードバックからの強化学習(RLHF)を使って微調整が行われている。GPT-4は前世代に比べていくつかの改良が施されているのが特徴である。画像入力を扱えるようになったほか、デフォルトのコンテキスト長が4,096トークンから8,192トークンに倍増した。また32,768トークンをサポートするアクセス制限版もありこれは約50ページのテキストに相当する。システムプロンプトによりモデルの応答行動をより適切に制御できるようになった。またTruthfulQAのようなベンチマークで測定した場合、GPT-3.5よりも事実誤認が少なくなっている。OpenAIによると以下の通りである。
GPT-4が、多くのアプリケーションを動かすことで、人々の生活を向上させる貴重なツールになることを期待しています。まだやるべきことはたくさんありこのモデルを改善することを楽しみにしています。
OpenAIはモデルのアーキテクチャやトレーニングデータセットの詳細を公開していないが、いくつかのベンチマークでの結果を示す技術報告書と、有害な出力を生成するモデルのリスクを特定し緩和するための取り組みの概要を公開している。モデルの完全なトレーニングには非常に多くの計算能力と時間が必要であるため、小規模なモデルのパフォーマンスデータがあれば、モデルの最終的なパフォーマンスを予測する技術も開発した。OpenAIによるとこれにより、"アライメント、安全性、デプロイメントに関する意思決定が改善される "という。
彼らのモデルを評価するために、OpenAIはLLMをベンチマークするためのフレームワークであるEvalsをオープンソース化した。ベンチマーク例またはevalsは、通常LLMへの迅速な入力と期待される応答で構成されている。MMLUのような既存のベンチマークの実装や、論理パズルのようなGPT-4がうまく動作しないものを含む、いくつかのEvalスイートがすでにリポジトリに含まれている。OpenAIは新しいモデルのバージョンがリリースされたときに、Evalsフレームワークを使用してパフォーマンスを追跡すると述べている。またこのフレームワークを使用して、モデル機能の将来の開発の指針にするつもりだ。
「Hacker News」のスレッドで、複数のユーザーが「GPT-4」について議論した。あるコメンターはこう言う。
デモを見た後、私は新しいコンテキストの長さがもっとも大きな影響を与えると確信しています。32kのトークンをプロンプト(25,000ワード)に投げることができるということは、推論能力とユースケースの数を劇的に拡大するように思えます。医者が患者の病歴を全部プロンプトに入れたり、弁護士が事件歴を全部プロンプトに入れたり...25,000ワード分の情報を頭の中に入れて、それを効果的に推論・操作できる人間がいるでしょうか?
他のユーザーからは、医療や法律のアプリケーションではOpenAIがデータプライバシーの保証を強化する必要があるとの指摘があった。GPTモデルが暗号化された入力に対して操作するhomomorphic encryptionスキームが解決策になるかもしれないという意見もあった。
このモデルに関心のある開発者はOpenAIのwaitlistに参加できる。