InfoQ ホームページ Deep+Learning に関するすべてのコンテンツ
-
Meta社、効率的な長配列モデリングのためのMEGALODON LLMをオープンソース化
先日、Meta社、南カリフォルニア大学、カーネギーメロン大学、カリフォルニア大学サンディエゴ校の研究者が、無制限の文脈長を持つ大規模言語モデル(LLM)であるMEGALODONのオープンソース化を発表した。MEGALODONは線形複雑度を持ち、様々なベンチマークにおいて同サイズのLlama 2モデルを凌駕している。
-
Meta社のChameleon AIモデルは、画像・テキスト混合タスクでGPT-4を上回るパフォーマンスを発揮する
Meta社のAI基盤研究(FAIR)チームはこのほど、テキストと画像が混在したコンテンツを理解・生成できる混合モーダルAIモデル「Chameleon」を発表した。人間の審査員によって評価された実験では、Chameleonの生成出力はGPT-4よりも51.6%、Gemini Proよりも60.4%で好まれた。
-
OpenAI、動作のファインチューニングのためのGPTモデル仕様を公開
OpenAIは最近、GPTモデルの動作に関するルールと目的を記述した文書、Model Specを公開した。この仕様書は、データ・ラベラーやAI研究者がモデルをファインチューニングするためのデータを作成する際に使用することを目的としている。
-
ワシントン大学のAIを搭載したヘッドフォンで、群衆の中の一人の声を聞き取ることが容易に
"ターゲット・スピーチ・ヒアリング "は、ワシントン大学で開発された新しいディープラーニング・アルゴリズムで、ユーザーが話者を"登録"し、その声を取り巻く環境ノイズをすべてキャンセルする。
-
Stability AIが3Dモデル生成AI "Stable Video 3D"をリリース
Stability AIはこのほど、1枚の2D画像から3Dメッシュオブジェクトモデルを生成できるAIモデル、"Stable Video 3D"(SV3D)をリリースした。SV3DはStable Video Diffusionモデルに基づいており、3Dオブジェクト生成ベンチマークで最先端の結果を出している。
-
OpenAIが新たなファインチューニングAPI機能をリリース
OpenAIは、ファインチューニングAPIの新機能リリースを発表した。この機能により、モデル開発者はファインチューニングプロセスをよりコントロールできるだけでなく、モデルのパフォーマンスをより深く理解しやすくなるだろう。
-
Google、ユーザーインターフェースとインフォグラフィックスを理解するAIモデル「ScreenAI」を育成
Google Researchは先日、インフォグラフィックスとユーザーインターフェースを理解するためのマルチモーダルAIモデル「ScreenAI」を開発した。ScreenAIはPaLIアーキテクチャをベースにしており、いくつもの課題において最先端の性能を記録している。
-
Meta社、24000基以上のGPUから成るAIインフラ設計を発表
Meta社はこの程、2つの新しいAIコンピューティング・クラスターの設計を発表し、それぞれ24,576基のGPUを搭載している。これらのクラスタはMeta社のGrand Tetonハードウェア・プラットフォームに基づいており、1つのクラスタは現在Meta社の次世代モデルである、"Llama 3"のトレーニングに使用されている。
-
研究者らが、LLMジェイルブレイク攻撃の防御アルゴリズム"SafeDecoding"のオープンソース化を発表
ワシントン大学、ペンシルバニア州立大学、アレンAI研究所の研究者が、大規模言語モデル(LLM)をジェイルブレイク攻撃から守る技術である、"SafeDecoding"のオープンソース化を発表した。SafeDecodingは、大きな計算オーバーヘッドを発生させることなく、ベースラインのジェイルブレイク防御を上回る性能を発揮する。
-
OpenAI、"Transformer Debugger"ツールをリリース
OpenAIは、"Transformer Debugger"(TDB)と呼ばれる新しいツールを発表した。このツールはOpenAIのSuperalignmentチームによって開発され、自動解釈可能性技術とスパースオートエンコーダを組み合わせたものである。
-
RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化
RWKVプロジェクトはこの程、75.2億パラメータの大規模言語モデル(LLM)である、Eagle 7Bをオープンソース化した。Eagle 7Bは、100以上の言語の1.1兆トークンのテキストで学習され、多言語ベンチマークにおいて他の同サイズのモデルを凌駕している。
-
Google、2億パラメータのAI予測モデル"TimesFM"を発表
GoogleResearchは、時系列予測を目的とした200MパラメータのTransformerベースの基礎モデルである、TimesFMを発表した。TimesFMは約100Bのデータポイントで学習され、教師あり学習モデルと同等以上のゼロショット予測性能を持つ。
-
Google社がBardをGeminiに改名
Google社は、同社のチャットボットBardの名称をGeminiに変更すると発表した。同社はまた、Gemini言語モデルの最大バージョンであるGemini Advancedの発表と、Gemini言語モデルと対話するための2つの新しいモバイルアプリの発表も行った。
-
Stability AIのオープンソース動画生成モデル Stable Video Diffusion
Stability AI社は、動画生成AIモデルStable Video Diffusion(SVD)のコードとモデルウェイトを公開した。コンテキストとして入力画像が与えられると、このモデルは576x1024ピクセルの解像度で25のビデオフレームを生成できる。
-
Stability AI社が16億パラメータの言語モデル "Stable LM 2"をリリース
Stability AI社は、1.6Bパラメータの言語モデルStable LM 2用に、訓練済みのモデル重みを2セットリリースした。Stable LM 2は、7言語の2兆トークンから成るテキストデータで学習を行ったものであり、一般的なラップトップコンピュータで実行できる。