InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

ログインして、InfoQのすべての体験をアンロックしましょう！お気に入りの著者やトピックの最新情報を入手し、コンテンツと交流し、限定リソースをダウンロードできます。

ログイン

または

アカウントをお持ちでない方

登録

InfoQ ホームページ model-inference に関するすべてのコンテンツ

ニュース

RSSフィード

モバイル

Gemma 3がモバイルAI推論を拡張するための斬新な手法を導入

昨年5月に初期プレビュー版が公開されたGemma 3nが正式に利用可能となった。モバイル優先のオンデバイスAIアプリケーションを対象としており、効率を向上させ、性能を改善するための新しい技術、Per-Layer EmbeddingsやTransformer Nestingといった手法が含まれる。

Sergio De Simone 翻訳者 null
投稿日 2025年9月11日午前3時30分
モバイル

GoogleがML KitにGemini Nanoを導入、新しいオンデバイスGenAI APIを提供

ML Kitに最近追加された新しいGenAI APIは、開発者がGemini Nanoを使ってAndroidアプリでオンデバイス推論を可能にし、要約、校正、書き換え、画像説明などの機能をサポートする。

Sergio De Simone 翻訳者 Hiroaki.Sugimura
投稿日 2025年9月2日午前7時30分
AIと機械学習、データエンジニアリング

Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る

Anthropicが最近発表した2つの論文は、大規模言語モデルの内部で起こるプロセスを明らかにしようとする試みで、解釈可能な概念を特定し、それを言語化する計算「回路」に結びつける方法と、ハルシネーション、プランニング、その他の主要な特徴を含むClaude Haiku 3.5の重要な挙動を特徴付ける方法を探求している。

Sergio De Simone 翻訳者 Hiroaki.Sugimura
投稿日 2025年6月2日午前8時30分
AIと機械学習、データエンジニアリング

Hugging Face、新たなプロバイダー統合でサーバーレス推論オプションを拡大

Hugging Faceは、Fal、Replicate、SambaNova、Together AIの4つのサーバーレス推論プロバイダーの統合を直接モデルページにローンチした。これらのプロバイダーはJavaScriptおよびPython用Hugging FaceクライアントSDKにも統合されており、ユーザーは最小限のセットアップで様々なモデルの推論を実行できるようになっている。

Daniel Dominguez 翻訳者 Hiroaki.Sugimura
投稿日 2025年3月5日午前6時30分
AIと機械学習、データエンジニアリング

NVIDIAが初のパーソナルAIコンピューター、Arm搭載Project Digitsを発表

200Bパラメータ・モデルを実行可能なNvidia Project Digits は新しいNvidia GB10 Grace Blackwell Superchipを搭載し、AIモデルのファインチューニングと実行を開発者がローカルマシンでできるようにする。3,000ドルからスタートするProject DigitsはAI研究者、データサイエンティスト、学生をターゲットとしており、デスクトップシステムを使ってモデルを作成し、クラウドやデータセンターのインフラストラクチャにデプロイすることを可能にする。

Sergio De Simone 翻訳者 null
投稿日 2025年1月17日午前7時30分
DevOps

Meta社がテールユーティライゼーションの向上によりAI推論を最適化

Meta社（旧Facebook社）は、テールユーティライゼーションの最適化に注力することで、機械学習モデル提供インフラの効率性と信頼性が大幅に改善されたことを報告した。

Matt Saunders 翻訳者 Takahiro Odera
投稿日 2024年9月19日午前12時31分

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

ニュース

Gemma 3がモバイルAI推論を拡張するための斬新な手法を導入

GoogleがML KitにGemini Nanoを導入、新しいオンデバイスGenAI APIを提供

Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る

Hugging Face、新たなプロバイダー統合でサーバーレス推論オプションを拡大

NVIDIAが初のパーソナルAIコンピューター、Arm搭載Project Digitsを発表

Meta社がテールユーティライゼーションの向上によりAI推論を最適化

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco