InfoQ ホームページ 大規模言語モデル に関するすべてのコンテンツ
-
Stability AI社が16億パラメータの言語モデル "Stable LM 2"をリリース
Stability AI社は、1.6Bパラメータの言語モデルStable LM 2用に、訓練済みのモデル重みを2セットリリースした。Stable LM 2は、7言語の2兆トークンから成るテキストデータで学習を行ったものであり、一般的なラップトップコンピュータで実行できる。
-
LeftoverLocalsがApple、Qualcomm、AMDのGPUに関するLLMの回答をリークする可能性
セキュリティ企業Trail of Bitsは、Apple、Qualcomm、AMD、Imagination GPUのGPUローカルメモリから悪意ある行為者がデータを復元できる脆弱性を公表した。LeftoverLocalsと名付けられたこの脆弱性は、大規模言語モデル(LLM)や機械学習(ML)モデルなど、GPUを使用するあらゆるアプリケーションに影響を及ぼす。
-
LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性
OpenAIの競合であるAnthropicのAI研究者は、プロンプトの特定のヒントによって引き起こされる不正行動を示すLLMを概念実証として訓練した。さらに、一旦不正の行動がモデルに訓練させると、標準的な技術を使ってそれを回避する方法はなかったという。
-
Mistral AIのオープンソースモデル"Mixtral 8x7B"、GPT-3.5を上回る
Mistral AIは先日、スパース混合エキスパート(SMoE)大規模言語モデル(LLM)であるMixtral 8x7Bをリリースした。このモデルは総パラメータ46.7Bを含むが、その3分の1のサイズのモデルと同じスピードとコストで推論を処理できる。いくつかのLLMベンチマークでは、Llama 2 70BとGPT-3.5の両方を上回った。
-
OpenAIがAIの安全性に"Preparedness Framework"を採用
OpenAIはこの頃、AIのリスクを軽減するためのPreparedness Frameworkのベータ版を発表した。このFrameworkには、4つのリスクカテゴリーとそれぞれのリスクレベルの定義が記載されており、OpenAIの安全ガバナンス手順も定義されている。
-
OpenAIがGPTプロンプトエンジニアリングガイドを発表
先日、OpenAIはプロンプトエンジニアリングのガイドを発表した。このガイドでは、GPTモデルからより良い応答を引き出すための6つの戦略が掲載されており、特に最新バージョンであるGPT-4の例に焦点を当てられている。
-
Microsoft、小型言語モデルPhi-2を発表
Microsoft Researchは、27億パラメータのTransformerベースの言語モデルであるPhi-2を発表した。Phi-2はGPT-3.5によって生成された1.4Tトークンの合成データでトレーニングされ、様々なベンチマークでより大規模なモデルを上回る性能を発揮する。
-
JetBrains、2023.3リリースのIDEに統合されたAIアシスタントの提供を発表
JetBrainsは、今年最後のリリースですべてのIDEを刷新し、統合されたAIアシスタントをプレビューから有料顧客向けに一般提供を開始することを発表した。IDEとの強力な統合に加え、JetBrainsのAIアシスタントは、複数のLLMをサポートすることで他との差別化を図っている。
-
MicrosoftのOrca 2 LLM、性能面で10倍大きいモデルを凌駕
Microsoft Researchは、Llama 2の微調整版であるOrca 2 LLMを発表した。Orca 2 LLMは、10倍のパラメータを含むモデルと同等かそれ以上の性能を発揮できる。この性能を達成するために、合成トレーニングデータセットとプロンプト消去と呼ばれる新しい技術を使用している。
-
xAI、大規模言語モデル"Grok"を発表
イーロン・マスク氏が設立したAI企業xAIはこの頃、大規模言語モデルGrokを発表した。GrokはXプラットフォームを通じて世界の現在の知識にアクセスでき、いくつかのベンチマークでGPT-3.5を含む同規模の他の大規模言語モデル(LLM)を凌駕している。
-
AI研究者、間違いからの学習を模倣することでLLMベースの推論を改善する
マイクロソフト、北京大学、西安交通大学の研究者は、人間が自分の失敗から学ぶ方法を再現することによって、大規模言語モデル(LLM)の数学問題を解く能力を向上させる技術を開発したと発表した。
-
Google、AIのファインチューニング方法であるDistilling Step-by-Stepをオープンソース化
ワシントン大学とGoogle Researchのチームは先日、より小さな言語モデルのファインチューニングを行う手法であるDistilling Step-by-Stepをオープンソース化した。Distilling Step-by-Stepは、標準的なファインチューニングよりも少ないトレーニングデータで、700倍のパラメータを持つ数発のプロンプト大規模言語モデル(LLM)を凌駕する小さなモデルを生成できる。
-
Meta社のオープンソースコード世代 LLM Code Llama
Meta社は最近、コード生成LLMであるCode Llamaをオープンソース化した。これはLlama 2の基礎モデルに基づいており、同じコミュニティ・ライセンスが適用されている。Code Llamaは500Bトークンのコードで微調整され、34Bパラメータまでの3つのモデルサイズが利用可能である。コード生成ベンチマークでの評価では、このモデルは他のすべてのオープンソースモデルを上回り、ChatGPTに匹敵した。
-
ジェネレーティブAIサービス「AWS Bedrock」が一般提供開始
昨年4月にプレビュー版として発表されたBedrockだが、アマゾンはジェネレーティブAIアプリ向けのフルマネージドサービスの一般提供を発表した。
-
Semantic Kernel LLM Java SDKが利用可能になり、GenAIの統合が簡素化
大規模言語モデル(LLM)を一般的なプログラミング言語と統合するSDKであるSemantic Kernelが、Javaで利用可能になった。マイクロソフト社は最近のブログ記事で、Javaライブラリの登場を発表した。マイクロソフト社は今年初め、Semantic Kernelを初めてオープンソース化した。マイクロソフト社はSemantic Kernelを、AI LLMの統合を可能にする軽量SDKと呼んでいる。Semantic KernelSDKはJava以外に、C#とPythonプログラミング言語もサポートしている。