InfoQ ホームページ Benchmark に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

AIと機械学習、データエンジニアリング

Hugging FaceがmmBERTを発表、対応言語1,800以上の多言語エンコーダー

Hugging FaceはmmBERT、1,833の言語にわたる3兆以上のトークンでトレーニングされた新しい多言語エンコーダーをリリースした。モデルはModernBERTアーキテクチャを基盤としており、多言語理解タスクの長年のベースラインとなっていたXLM-Rを大幅に上回る初のモデルである。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年12月15日午前6時31分
AIと機械学習、データエンジニアリング

OpenAIがgpt-oss-120bとgpt-oss-20bをリリース、ローカルデプロイメント向けのオープンウェイト言語モデル

OpenAIはgpt-oss-120bとgpt-oss-20b、高性能な推論、ツールの使用、効率的デプロイを目的とした2つのオープンウェイト言語モデルをリリースした。これらはGPT-2以来の同社初の完全オープンウェイト言語モデルであり、寛容なApache 2.0ライセンスの下で利用可能である。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年10月6日午前7時30分
AIと機械学習、データエンジニアリング

Mistral AIがMagistralをリリース、同社初の推論特化型言語モデル

Mistral AIはMagistral、透明性のある多段階推論のために構築された新しいモデルファミリーをリリースした。オープンバージョンとエンタープライズバージョンが利用可能で、構造化されたロジック、多言語出力、追跡可能な意思決定をサポートする。

Robert Krzaczyński 翻訳者 null
投稿日 2025年9月25日午前1時30分
AIと機械学習、データエンジニアリング

Google、オープンソースのクロスプロバイダーLLM評価ツールLMEvalを公開

LMEvalは、AI研究者や開発者が異なる大規模言語モデル（LLM）の性能を比較するのを支援することを目的としている。正確性、マルチモーダル対応、使いやすさを重視して設計されており、安全性やセキュリティの観点から主要なモデルの評価にすでに使用されている。

Sergio De Simone 翻訳者 Naoko Koshimura
投稿日 2025年9月12日午前2時30分
AIと機械学習、データエンジニアリング

OpenAI社がAIエージェントのウェブ検索機能やディープリサーチ機能のベンチマーク評価を実現する「BrowseComp」を発表

SimpleQAをはじめとする従来型のベンチマークは単一事実情報の収集能力評価に特化しており、ブラウジング機能搭載型GPT-4oなどの高速ブラウジング対応モデルの台頭で「飽和状態」に達している。一方、BrowseCompは数十、数百のウェブサイトを行き来しながら、情報を収集精査するエージェントの能力を計測する。 BrowseCompの問題には、端的かつ明確な回答が可能であり、参照型ソリューションとの照合で評価が容易に行える。

Vinod Goje 翻訳者 Kazuki.Shimatani
投稿日 2025年5月29日午前8時30分
AIと機械学習、データエンジニアリング

Radical AI、次世代原子論的シミュレーションのためのPyTorchネイティブエンジン「TorchSim」をリリース

Radical AI社は、PyTorchネイティブで構築され、MLIP（機械学習による原子間ポテンシャル）時代のために設計された次世代原子論的シミュレーションエンジンTorchSimのリリースを発表した。材料科学における大きな技術的転換と位置づけられるTorchSimは、ASE（原子シミュレーション環境）やDFT（密度汎関数理論）といった従来のフレームワークと比較して、分子シミュレーションを桁違いに高速化することを約束する。

Robert Krzaczyński 翻訳者 Takashi Kawase
投稿日 2025年5月16日午前9時30分
AIと機械学習、データエンジニアリング

Meta AIがLlama 4をリリース：初期の印象とコミュニティからのフィードバック

Meta社は、新しいLlama 4ファミリーの最初のモデルであるScoutとMaverickを正式にリリースした。これは、同社のオープンウェイト大規模言語モデルエコシステムにおける大きな前進となる。ネイティブのマルチモーダルアーキテクチャとMixture of Experts（MoE）フレームワークで設計されたこれらのモデルは、画像理解からロングコンテキストの推論まで、より幅広いアプリケーションをサポートすることを目的としている。

Robert Krzaczyński 翻訳者 Naoko Koshimura
投稿日 2025年5月14日午前12時30分
AIと機械学習、データエンジニアリング

Mistral AIがアラビア語と南インドの言語に対応した地域言語モデルのSabaを発表

Mistral AIは、アラビア語といくつかのインド言語、特にタミル語のような南インド言語のAIパフォーマンスを向上させるために設計された240億パラメータ言語モデルである、Mistral Sabaを発表した。必要とされる地域的コンテキスト理解を欠く恐れのある汎用モデルとは異なり、Mistral Sabaは中東や南アジアで収集しキュレートされたデータセットで訓練されており、言語文化的により正確な応答を提供している。

Robert Krzaczyński 翻訳者 kazuki
投稿日 2025年3月27日午前5時30分
AIと機械学習、データエンジニアリング

Google DeepMindが長期的疾病管理向けにAMIEを強化

Google DeepMindは長期的な疾病管理をサポートするためにArticulate Medical Intelligence Explorer（AMIE）の機能を診断以外にも拡張した。このシステムは現在、臨床医が複数回の患者の受診にわたって病気の進行を監視し、治療を調整し、臨床ガイドラインの遵守を支援するように設計されている。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年3月19日午前2時30分
AIと機械学習、データエンジニアリン��

マイクロソフトがCoRAGを発表：反復的推論によるAI検索の強化

Microsoft AIは中国人民大学と共同でRetrieval-Augmented Generation（RAG）モデルを強化するために設計された新しいAIフレームワーク、Chain-of-Retrieval Augmented Generation（CoRAG）を発表した。単一の検索ステップに依存する従来のRAGシステムとは異なり、CoRAGは反復検索と推論を可能にし、AIモデルが回答を生成する前に動的に検索結果をリファインすることを可能にする。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年3月6日午前1時30分
AIと機械学習、データエンジニアリング

PerplexityがDeep Researchを発表：高度な分析のためのAI駆動ツール

PerplexityはDeep Research、金融、マーケティング、テクノロジーなど様々な分野で詳細な分析を行うために設計されたAI駆動ツールを発表した。このシステムは、複数の検索を実行し、広範な情報源を分析し、数分以内に構造化されたレポートに結果をまとめることでリサーチプロセスを自動化する。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年2月28日午前7時30分
AIと機械学習、データエンジニアリング

HuatuoGPT-o1: AIによる複雑な医療推論の進展

香港中文大学深圳校と深圳ビッグデータ研究所の研究者は、複雑な医療シナリオにおける推論を改善するために設計された医療用大規模言語モデル（LLM） HuatuoGPT-o1を発表した。このモデルは新しい2段階の訓練プロセスを使用して開発され、医療専門家が使用する診断アプローチに似た段階的な分析を通じて応答をリファインすることを目指している。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年1月24日午前7時31分
AIと機械学習、データエンジニアリング

NVIDIAがHymba 1.5B��発表: 効率的NLPモデルへのハイブリッドアプローチ

NVIDIAの研究者は、トランスフォーマーと状態空間モデル（SSM）アーキテクチャを組み合わせて前例のない効率とパフォーマンスを実現するオープンソース言語モデル、Hymba 1.5Bを発表した。NVIDIAの最適化されたトレーニングパイプラインで設計されたHymbaは、従来のトランスフォーマーの計算およびメモリの制約に対処しつつ、SSMの記憶能力を向上させている。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年1月22日午前9時30分
AIと機械学習、データエンジニアリング

Qwen開発チーム、QwQ-32B-Previewを発表：AIによる推論と分析が進化

LLM（大規模言語モデル）であるQwenの開発チームは、AIの推論と分析能力を向上させるために設計された実験的研究モデル、QwQ-32B-Previewを発表した。32,768トークンのコンテキストと最先端の変換アーキテクチャを特徴とするこのモデルは、GPQAやMATH-500のような数学、プログラミング、科学ベンチマークに優れている。Hugging Faceで利用可能で、その機能を探求し、開発に貢献をしてくれる研究者たちを募っている。

Robert Krzaczyński 翻訳者 Takamasa Sugawara
投稿日 2025年1月9日午前8時30分
AIと機械学習、データエンジニアリング

Rhymes AIがAriaを発表：開発リソースを備えたオープンソースのマルチモーダルモデル

Rhymes AIは、テキスト、画像、ビデオ、コードを効果的に処理できるオープンソースのマルチモーダルネイティブMoE（Mixture-of-Experts）モデル、Ariaを発表した。ベンチマークテストにおいて、Ariaは他のオープンモデルを凌駕し、GPT-4oやGemini-1.5などの独自モデルに対しても競争力のある性能を示した。さらに、Rhymes AIは、微調整や開発のためのモデルの重み付けやガイダンスを含むコードベースを公開している。

Robert Krzaczyński 翻訳者 Naoko Koshimura
投稿日 2024年12月10日午前10時30分