InfoQ ホームページ 大規模言語モデル に関するすべてのコンテンツ
-
Claude Sonnet 4.5は、オープンソースの監査ツールPetriによって最も安全なLLM(大規模言語モデル)として評価された。
Claude Sonnet 4.5は、Anthropic社の新しいオープンソースAI監査ツールであるPetri(Parallel Exploration Tool For Risky Interactions)による初期評価において、「リスキーなタスク」において最も優れたパフォーマンスを示したモデルとして浮上した。
-
AnthropicがClaude Codeを拡張、Webおよびモバイルプラットフォームに
AnthropicはAI駆動開発環境Claude Codeの利用可能範囲を拡張し、Webおよびモバイルプラットフォームに対応させた。これまでClaude.aiやAPI統合を通したデスクトップアクセスに限定されていたが、今回の展開により開発者はブラウザやモバイルデバイス上で直接コーディング作業を実行および管理できるようになった。
-
Hugging FaceがmmBERTを発表、対応言語1,800以上の多言語エンコーダー
Hugging FaceはmmBERT、1,833の言語にわたる3兆以上のトークンでトレーニングされた新しい多言語エンコーダーをリリースした。モデルはModernBERTアーキテクチャを基盤としており、多言語理解タスクの長年のベースラインとなっていたXLM-Rを大幅に上回る初のモデルである。
-
AnthropicがClaudeパフォーマンス問題の背後にある3つのインフラストラクチャバグを公開
Anthropicは最近、Claudeモデルの出力品質が数週間にわたり断続的に低下していた原因について、3つの異なるインフラストラクチャのバグが関与していたことを明らかにするポストモーテムを公開した。同社はこれらの問題を解決し、同様の障害を防ぐために内部プロセスを変更していると述べているが、コミュニティは3つのハードウェアプラットフォームでサービス運用することの課題をハイライトしている。
-
AnthropicがSkills導入、カスタムClaudeタスク向け
AnthropicはClaudeをモジュール化された再利用可能タスクコンポーネントで拡張できるようにする新機能、Skillsを発表した。各Skillは長文の要約、APIからのデータ取得、ドメイン固有の計算の実行などの会話中に、Claudeが呼び出すことができる自己完結型機能である。
-
OWASPがAgentic AIにおけるツール誤用を重大な脅威として警告
今年初め、OWASPはAgentic AI - Threats and Mitigationsと呼ばれるAgentic AIセキュリティに関するガイダンスをリリースした。この文書はこの新興技術を安全にデプロイする際のユニークな課題をハイライトし、防御のための緩和策やアーキテクチャパターンを提案している。
-
PayPal社の新たなエージェントツールキットで、MCPでAIフレームワークが決済APIと接続可能に
PayPal社は、モデルコンテキストプロトコル(MCP)を介したPayPal APIスイートとAIフレームワークの接続用のエージェントツールキットを発表した。今回発表となるツールキットで、決済API、請求書API、チャージバックAPI、配送追跡API、カタログ管理API、サブスクリプションAPI、分析機能用のAPIがAIフレームワークから直接利用可能になる。
-
Google DeepMind社、Gemini Robotics-ER 1.5でエンボディド推論を実現
Google DeepMind社が、ロボットアプリケーション向けの新たなエンボディド推論モデル「Gemini Robotics-ER 1.5」を発表した。現在、Google AI StudioやGemini APIを通じたプレビュー版の利用が可能だ。
-
Google Stax、AIモデル評価を開発者向けによりアクセシブルに
Google StaxはAIモデルの主観的評価を、客観的かつデータ駆動型で再現可能なプロセスに置換えるためにデザインされたフレームワークだ。Googleは汎用ベンチマークに頼るのではなく、AI開発者は彼らの特定ユースケースに合わせて評価プロセスをテーラリングできるようになると言っている。
-
EmbabelがJavaアプリケーション向けの高度なAIエージェント開発を実現
Spring Frameworkの創設者Rod Johnson氏が発表したEmbabel Agent Frameworkは、Spring Framework上に構築されたAI駆動型アプリケーションを開発するための新しいJVMベースのプラッ��フォームだ。これにより、開発者が従来のJavaアプリケーションに大規模言語モデル(LLM)を統合する方法を変革し、実験的なアプローチから本番環境対応の型安全なソリューションへと移行できる。
-
Claude Code、ストリーム可能なHTTPによるリモートMCPサーバーのサポートを実装
Anthropic社は最近、Claude CodeにリモートMCPサーバーへの接続をサポートする機能を導入した。これにより、開発者は手動でローカルサーバーを設定することなく、外部ツールやリソースを統合可能になった。
-
Anthropicがアプリ構築機能をClaude Artifactsにアップグレード
Anthropic社は、Claudeに新たなアプリ構築機能を追加し、ユーザーがテキストプロンプトから直接AIアプリケーションを作成、ホスト、シェアできるようにした。この機能はArtifactsとして知られ、データアナライザーやフラッシュカードジェネレーター、学習支援のような実用的なツールを、ユーザーがアイデアをシンプルに記述するだけで構築できるようにする。プログラミングスキルがない人でも高度なアプリケーションを作成できるよう、Claudeが裏でコーディングする。
-
Gemini 2.5 Deep Think、並行思考を応用してクリエイティブな問題解決を実現
Google AI Ultraサブスクリプションの一環として提供されるGemini 2.5 Deep Thinkは、並列思考技術と推論時間を拡張することでクリエイティブな問題解決に特化したモデルである。
-
Amazon、AIエージェント開発向けオープンソースSDK「Strands Agents」を公開
Amazon社は、AIエージェント開発をモデル駆動型アプローチで簡素化するオープンソースSDK「Strands Agents」を公開した。このフレームワークは、最小限のコードでプロンプトとツールリストを定義することでエージェントを構築できる。
-
初開催のMCP開発者サミットがAI統合の未来を描く
2025年5月、Model Context Protocol(MCP)の開発者や貢献者たちがサンフランシスコに集まり、初の開発者サミットを開催、LLMアプリケーションと外部データソースやツールをシームレスに統合するために急速に採用されている、このオープン標準の未来を描いた。