InfoQ ホームページ 大規模言語モデル に関するすべてのコンテンツ
-
Meta AIがLlama 4をリリース:初期の印象とコミュニティからのフィードバック
Meta社は、新しいLlama 4ファミリーの最初のモデルであるScoutとMaverickを正式にリリースした。これは、同社のオープンウェイト大規模言語モデルエコシステムにおける大きな前進となる。ネイティブのマルチモーダルアーキテクチャとMixture of Experts(MoE)フレームワークで設計されたこれらのモデルは、画像理解からロングコンテキストの推論まで、より幅広いアプリケーションをサポートすることを目的としている。
-
AI大陸行動計画:欧州委員会がAI開発におけるスケーリング戦略概要を発表
欧州委員会は、EUにおけるAIの開発とデプロイ推進に向けた新戦略「AI大陸行動計画」を発表した。同計画は、AIインフラストラクチャーへの協調投資、高品質データへのアクセス拡大、EUの戦略的セクターにおけるAI導入推進、AI規則順守への支援に関する戦略概要である。
-
SREと生成AIを利用したeBayのダウンタイム削減方法:KubeCon EUでのアーキテクトによる洞察
KubeCon EUの基調講演で、eBay社のプリンシパルMTSアーキテクトであるVijay Samuel氏は、機械学習やLLMのビルディングブロックを組み込み、自社SREチームのインシデント対応強化を行った際の実体験を披露した。同氏は今回の体験を通し、LLMは万能ではないものの、複数機能を組み合わせることで複雑なシナリオに取り組むエンジニアに役立つことが分かったと語っている。
-
Mistral AIがマルチモーダル文書のLLMベースOCR用APIを発表
Mistral AI社のla Plateforme SaaSで利用可能になったMistral OCRは、テキストと画像、表、数式、高度なレイアウトが混在する複雑な文書をデジタル化するためのOCRソリューションを提供することを目的としている。そのため、科学研究、歴史的文書や工芸品、ユーザーマニュアルなどのデジタル化に特に適していると同社は述べている。
-
OpenAIが文字起こしと音声合成用の新音声モデルを発表
OpenAIはAPIにおいて、文字起こしの精度向上とAI生成音声の制御性向上にフォーカスした新しい音声認識と音声合成モデルを導入した。これらのアップデートは自動音声アプリケーションを強化し、さまざまな環境やユースケースにさらに適応できるようにすることを目的としている。
-
OpenAIがカスタムエージェント開発用の新しいAPI、SDK、ツールを発表
OpenAIが新しいResponses API、Agent SDK、可観測性ツールを発表した。これらは本番対応エージェントを作成する際に直面する課題、例えばカスタムオーケストレーションの構築や、複雑な多段階タスクにおけるプロンプトの反復処理に対応するためのものだ。
-
instructlab.aiは、合成データを使用して大規模言語モデル(LLMs)の微調整の複雑さを軽減する
InstructLab.aiは、この論文で説明されているチャットボットのための大規模アラインメント(LAB)コンセプトをオープンソースで実装したものである。論文の要旨によると、LABは大規模言語モデル(LLM)の命令チューニングフェーズにおけるスケーラビリティの課題を克服することを目的としている。このアプローチは、LLMのための合成データベースのアライメントチューニングメソッドを活用する。このアプローチでは、作成された分類法によって、学習データの合成シードを提供できる。
-
Dapr Agents:LLM、Kubernetes、マルチエージェント協調によるスケーラブルなAIワークフロー
Daprは最近、大規模言語モデル(LLM)を使用してスケーラブルでレジリエントなAIエージェントを構築するためのフレームワークDapr Agentsを発表した。Dapr Agentsは、Daprのセキュリティ、オブザーバビリティ、クラウドニュートラルなアーキテクチャを活用し、構造化されたワークフロー、マルチエージェント連携、イベント駆動型の実行が可能だ。企業向けに設計されており、数千のエージェントをサポートし、データベースと統合し、堅牢なオーケストレーションとメッセージングによって信頼性を確保する。
-
IBM社、Granite 3.2で新たな視覚言語モデル、思考連鎖推論、時系列モデル強化を実装
IBM社は、マルチモーダルと推論機能を搭載したGranite 3.2の最新モデルを発表した。。Granite 3.2の特徴は試験的に導入された思考連鎖推論機能であり、従来モデルを大きく上回る性能を発揮している。新たな大規模視覚言語モデル(VLM)は、いくつかのベンチマークスコアでより大型のモデルを凌駕しているほか、小型モデルより効率的なデプロイを実現している。
-
Mistral AIがアラビア語と南インドの言語に対応した地域言語モデルのSabaを発表
Mistral AIは、アラビア語といくつかのインド言語、特にタミル語のような南インド言語のAIパフォーマンスを向上させるために設計された240億パラメータ言語モデルである、Mistral Sabaを発表した。必要とされる地域的コンテキスト理解を欠く恐れのある汎用モデルとは異なり、Mistral Sabaは中東や南アジアで収集しキュレートされたデータセットで訓練されており、言語文化的により正確な応答を提供している。
-
Googleの画像生成モデルImagen 3がFirebaseのVertex AIでプレビューとして利用可能に
Googleのもっとも先進的な生成AI画像生成モデルImagen 3が、FirebaseのVertex AIでプレビュー利用可能になり、KotlinとSwift SDKを使用してAndroidとiOSアプリにシームレスに統合できるようになった。
-
Hugging FaceがGPU全体の効率的LLMトレーニングに関するガイドを公開
Hugging FaceがUltra-Scale Playbook: Training LLMs on GPU Clusters、GPU クラスター全体で大規模言語モデル(LLM)をトレーニングする際の方法論と技術について詳細に探究するオープンソースのガイドを公開した。このプレイブックはスループット、GPU利用率、トレーニング効率の最適化に焦点を当て、最大512GPUを使用して実施された4000以上のスケーリング実験に基づいている。大規模モデルトレーニングに取り組む研究者やエンジニアに実践的なガイダンスを提供することを目的としており、再現可能なベンチマーク、実装の詳細、パフォーマンス最適化を提供している。
-
ソフトウェアアーキテクトが日常業務で人工知能をどのように活用しているか
ソフトウェアアーキテクトやシステム・アーキテクトがすぐに生成型人工知能(AI)や大規模言語モデル(LLM)に取って代わられることはないだろう、とAvraham Poupko氏は述べている。彼らは生成型AIとLLMを活用する方法を知っているソフトウェアアーキテクトに置き換えられるだろう、そして同時に重要なのは、生成型AIを使用すべきでない場面を知っていることだ。
-
OpenAIがソフトウェア開発ベンチマークを発表
OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。
-
DeepSeek、OpenAIのo1モデルに匹敵する性能を持つDeepSeek-R1 LLMをオープンソース化
DeepSeekは推論能力を向上させるために強化学習(RL)でファインチューニングされたLLM、DeepSeek-R1をオープンソース化した。DeepSeek-R1はMATH-500やSWE-benchを含むいくつかのベンチマークで、OpenAIのo1モデルと同等の結果を達成している。