InfoQ ホームページ Benchmark に関するすべてのコンテンツ
-
OpenAIがgpt-oss-120bとgpt-oss-20bをリリース、ローカルデプロイメント向けのオープンウェイト言語モデル
OpenAIはgpt-oss-120bとgpt-oss-20b、高性能な推論、ツールの使用、効率的デプロイを目的とした2つのオープンウェイト言語モデルをリリースした。これらはGPT-2以来の同社初の完全オープンウェイト言語モデルであり、寛容なApache 2.0ライセンスの下で利用可能である。
-
Mistral AIがMagistralをリリース、同社初の推論特化型言語モデル
Mistral AIはMagistral、透明性のある多段階推論のために構築された新しいモデルファミリーをリリースした。オープンバージョンとエンタープライズバージョンが利用可能で、構造化されたロジック、多言語出力、追跡可能な意思決定をサポートする。
-
Google、オープンソースのクロスプロバイダーLLM評価ツールLMEvalを公開
LMEvalは、AI研究者や開発者が異なる大規模言語モデル(LLM)の性能を比較するのを支援することを目的としている。正確性、マルチモーダル対応、使いやすさを重視して設計されており、安全性やセキュリティの観点から主要なモデルの評価にすでに使用されている。
-
OpenAI社がAIエージェントのウェブ検索機能やディープリサーチ機能のベンチマーク評価を実現する「BrowseComp」を発表
SimpleQAをはじめとする従来型のベンチマークは単一事実情報の収集能力評価に特化しており、ブラウジング機能搭載型GPT-4oなどの高速ブラウジング対応モデルの台頭で「飽和状態」に達している。一方、BrowseCompは数十、数百のウェブサイトを行き来しながら、情報を収集精査するエージェントの能力を計測する。 BrowseCompの問題には、端的かつ明確な回答が可能であり、参照型ソリューションとの照合で評価が容易に行える。
-
Radical AI、次世代原子論的シミュレーションのためのPyTorchネイティブエンジン「TorchSim」をリリース
Radical AI社は、PyTorchネイティブで構築され、MLIP(機械学習による原子間ポテンシャル)時代のために設計された次世代原子論的シミュレーションエンジンTorchSimのリリースを発表した。材料科学における大きな技術的転換と位置づけられるTorchSimは、ASE(原子シミュレーション環境)やDFT(密度汎関数理論)といった従来のフレームワークと比較して、分子シミュレーションを桁違いに高速化することを約束する。
-
Meta AIがLlama 4をリリース:初期の印象とコミュニティからのフィードバック
Meta社は、新しいLlama 4ファミリーの最初のモデルであるScoutとMaverickを正式にリリースした。これは、同社のオープンウェイト大規模言語モデルエコシステムにおける大きな前進となる。ネイティブのマルチモーダルアーキテクチャとMixture of Experts(MoE)フレームワークで設計されたこれらのモデルは、画像理解からロングコンテキストの推論まで、より幅広いアプリケーションをサポートすることを目的としている。
-
Mistral AIがアラビア語と南インドの言語に対応した地域言語モデルのSabaを発表
Mistral AIは、アラビア語といくつかのインド言語、特にタミル語のような南インド言語のAIパフォーマンスを向上させるために設計された240億パラメータ言語モデルである、Mistral Sabaを発表した。必要とされる地域的コンテキスト理解を欠く恐れのある汎用モデルとは異なり、Mistral Sabaは中東や南アジアで収集しキュレートされたデータセットで訓練されており、言語文化的により正確な応答を提供している。
-
Google DeepMindが長期的疾病管理向けにAMIEを強化
Google DeepMindは長期的な疾病管理をサポートするためにArticulate Medical Intelligence Explorer(AMIE)の機能を診断以外にも拡張した。このシステムは現在、臨床医が複数回の患者の受診にわたって病気の進行を監視し、治療を調整し、臨床ガイドラインの遵守を支援するように設計されている。
-
マイクロソフトがCoRAGを発表:反復的推論によるAI検索の強化
Microsoft AIは中国人民大学と共同でRetrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいAIフレームワーク、Chain-of-Retrieval Augmented Generation(CoRAG)を発表した。単一の検索ステップに依存する従来のRAGシステムとは異なり、CoRAGは反復検索と推論を可能にし、AIモデルが回答を生成する前に動的に検索結果をリファインすることを可能にする。
-
PerplexityがDeep Researchを発表:高度な分析のためのAI駆動ツール
PerplexityはDeep Research、金融、マーケティング、テクノロジーなど様々な分野で詳細な分析を行うために設計されたAI駆動ツールを発表した。このシステムは、複数の検索を実行し、広範な情報源を分析し、数分以内に構造化されたレポートに結果をまとめることでリサーチプロセスを自動化する。
-
HuatuoGPT-o1: AIによる複雑な医療推論の進展
香港中文大学深圳校と深圳ビッグデータ研究所の研究者は、複雑な医療シナリオにおける推論を改善するために設計された医療用大規模言語モデル(LLM) HuatuoGPT-o1を発表した。このモデルは新しい2段階の訓練プロセスを使用して開発され、医療専門家が使用する診断アプローチに似た段階的な分析を通じて応答をリファインすることを目指している。
-
NVIDIAがHymba 1.5Bを発表: 効率的NLPモデルへのハイブリッドアプローチ
NVIDIAの研究者は、トランスフォーマーと状態空間モデル(SSM)アーキテクチャを組み合わせて前例のない効率とパフォーマンスを実現するオープンソース言語モデル、Hymba 1.5Bを発表した。NVIDIAの最適化されたトレーニングパイプラインで設計されたHymbaは、従来のトランスフォーマーの計算およびメモリの制約に対処しつつ、SSMの記憶能力を向上させている。
-
Qwen開発チーム、QwQ-32B-Previewを発表:AIによる推論と分析が進化
LLM(大規模言語モデル)であるQwenの開発チームは、AIの推論と分析能力を向上させるために設計された実験的研究モデル、QwQ-32B-Previewを発表した。32,768トークンのコンテキストと最先端の変換アーキテクチャを特徴とするこのモデルは、GPQAやMATH-500のような数学、プログラミング、科学ベンチマークに優れている。Hugging Faceで利用可能で、その機能を探求し、開発に貢献をしてくれる研究者たちを募っている。
-
Rhymes AIがAriaを発表:開発リソースを備えたオープンソースのマルチモーダルモデル
Rhymes AIは、テキスト、画像、ビデオ、コードを効果的に処理できるオープンソースのマルチモーダルネイティブMoE(Mixture-of-Experts)モデル、Ariaを発表した。ベンチマークテストにおいて、Ariaは他のオープンモデルを凌駕し、GPT-4oやGemini-1.5などの独自モデルに対しても競争力のある性能を示した。さらに、Rhymes AIは、微調整や開発のためのモデルの重み付けやガイダンスを含むコードベースを公開している。
-
Hugging Face、AIモデル比較強化に向けOpen LLM Leaderboardをアップグレード
Hugging FaceはOpen LLM Leaderboard v2、大規模言語モデル向けの彼らのポピュラーなベンチマーキングプラットフォームのアップグレード版を最近リリースした。