InfoQ ホームページ model-inference に関するすべてのコンテンツ
ニュース
RSSフィード-
Gemma 3がモバイルAI推論を拡張するための斬新な手法を導入
昨年5月に初期プレビュー版が公開されたGemma 3nが正式に利用可能となった。モバイル優先のオンデバイスAIアプリケーションを対象としており、効率を向上させ、性能を改善するための新しい技術、Per-Layer EmbeddingsやTransformer Nestingといった手法が含まれる。
-
GoogleがML KitにGemini Nanoを導入、新しいオンデバイスGenAI APIを提供
ML Kitに最近追加された新しいGenAI APIは、開発者がGemini Nanoを使ってAndroidアプリでオンデバイス推論を可能にし、要約、校正、書き換え、画像説明などの機能をサポートする。
-
Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る
Anthropicが最近発表した2つの論文は、大規模言語モデルの内部で起こるプロセスを明らかにしようとする試みで、解釈可能な概念を特定し、それを言語化する計算「回路」に結びつける方法と、ハルシネーション、プランニング、その他の主要な特徴を含むClaude Haiku 3.5の重要な挙動を特徴付ける方法を探求している。
-
Hugging Face、新たなプロバイダー統合でサーバーレス推論オプションを拡大
Hugging Faceは、Fal、Replicate、SambaNova、Together AIの4つのサーバーレス推論プロバイダーの統合を直接モデルページにローンチした。これらのプロバイダーはJavaScriptおよびPython用Hugging FaceクライアントSDKにも統合されており、ユーザーは最小限のセットアップで様々なモデルの推論を実行できるようになっている。
-
NVIDIAが初のパーソナルAIコンピューター、Arm搭載Project Digitsを発表
200Bパラメータ・モデルを実行可能なNvidia Project Digits は新しいNvidia GB10 Grace Blackwell Superchipを搭載し、AIモデルのファインチューニングと実行を開発者がローカルマシンでできるようにする。3,000ドルからスタートするProject DigitsはAI研究者、データサイエンティスト、学生をターゲットとしており、デスクトップシステムを使ってモデルを作成し、クラウドやデータセンターのインフラストラクチャにデプロイすることを可能にする。
-
Meta社がテールユーティライゼーションの向上によりAI推論を最適化
Meta社(旧Facebook社)は、テールユーティライゼーションの最適化に注力することで、機械学習モデル提供インフラの効率性と信頼性が大幅に改善されたことを報告した。