Google、100万トークンのコンテキスト長を持つマルチモーダル"Gemini 1.5"を発表

原文リンク(2024-02-18)

Gemini 1.0 Ultraの発表から1週間後、Googleは次世代モデルであるGemini 1.5の追加詳細を発表した。新しいバージョンでは、コンテキストウィンドウが拡張され、"Mixture of Experts"（MoE）アーキテクチャが採用され、AIがより高速かつ効率的になることが期待されている。新モデルには、マルチモーダル機能の拡張も含まれている。

最大100万トークンを処理できる能力は、競合他社やその前身の能力をも凌駕している。GoogleCEOのSundar Pichai氏は、この機能の変革の可能性を強調し、これにより、クエリの瞬間に多くの個人的なコンテキストや情報を追加できるユースケースが可能になる。

Gemini 1.5のMixture of Experts手法の活用は、AIの効率を最適化するためのもう一つの前進である。クエリに基づいてモデルの関連部分を選択的にアクティブにすることは、スピードとリソースの節約の両方を保証するものであり、AIモデルがますます複雑化し、パワーを必要とするようになる中で重要な進歩である。このアプローチは、待ち時間を短縮することでユーザーエクスペリエンスを向上させ、AIをより持続可能なものにするための幅広い取り組みと一致する。

Google DeepmindとGoogle Researchのチーフ・サイエンティストである、Jeff Dean氏は以下のように述べている。

このモデルのマルチモーダル機能は、本全体、非常に長い文書集、数百のファイルにまたがる数十万行のコードベース、完全な映画、ポッドキャスト・シリーズ全体などと、洗練された方法で対話できることを意味します。

Gemini 1.5の組織化されたデモンストレーションを見たい人は、10万行のコードにわたる問題解決や44分の映画にわたる検索のビデオを参照することができる。

OpenAIがこの程、ChatGPTのメモリ機能を発表し、ウェブ検索へのプッシュを示唆していることから、最も強いAIを単に構築することに留まらないような競争が始まっている。GoogleがGemini 1.5で、より広範な消費者向け展開に先立ち、開発者と企業ユーザーの両方に焦点を当てていることは、ビジネス革新と個人の生産性に向けたツールとしてのAIの重要性を強調している。

本当に重要なのは、モデルが現実世界の問題を解決するために実際にコンテキストをどれだけうまく使用しているかということであり、Gemini-1.5 は見事に SOTA を上回りました。 -Jim Fan氏

Gemini 1.5をめぐって期待が高まる一方で、Googleがまだその可能性を最大限に探求する初期段階にあるということは明らかである。Gemini 1.5はVertex AIおよびAI Studioを通じてビジネスユーザーと開発者のみが利用できる予定である。このモデルの優れた機能には課題があり、特に最大のコンテキストウィンドウを伴うタスクの処理速度が課題である。Google DeepMind の研究担当副社長であるOriol Vinyals氏は、「レイテンシの側面については、私たちが…最適化に取り組んでいます。これはまだ実験段階、研究段階です」と認めている。しかし、将来の最適化の約束やさらに大きなコンテキストウィンドウの探求はGoogleが可能性の表面をなぞっただけであることを示唆している。

Gemini 1.5の詳細について興味のある開発者は、モデルカード、トレーニング情報、モデル評価の詳細など、モデルに関する追加情報をテクニカルレポートで見ることができる。

作者について

Andrew Hoblitzell

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Google、100万トークンのコンテキスト長を持つマルチモーダル"Gemini 1.5"を発表

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。