InfoQ ホームページ generative-ai に関するすべてのコンテンツ
-
AIコーディングアシスタントの活用による開発者の生産性向上を研究結果が示唆
Microsoft社、マサチューセッツ工科大学(MIT)、プリンストン大学、ペンシルベニア大学ウォートンスクールの研究者らは先日、GitHub Copilotの利用で開発者の生産性が向上するという研究結果を発表した。研究チームは、4,000人以上の開発者を対象とした3つの別々のランダム化比較試験(RCT)を実施し、Copilotを使用した開発者の生産性は26%向上した。
-
Google社、大規模言語モデル(LLM)自己修正アルゴリズムSCoReを発表
先日、Google DeepMind社の研究者が、強化学習を用いた自己修正(Self-Correction via Reinforcement Learning, 以下 SCoRe)に関する論文を発表した。このSCoReとは、数学やコーディングの問題を解く際の大規模言語モデルによる自己修正能力の向上を図る技術である。SCoReで微調整されたモデルは、ベースラインモデルと比較で、いくつかのベンチマークの性能が向上した。
-
Stability AIが最上位のテキスト生成画像モデルをAmazon Bedrockと統合したことを発表
Stability AIは、Amazon Bedrockに3つの新しいテキスト画像生成モデル:Stable Image Ultra、Stable Diffusion 3 Large、Stable Image Coreを搭載した。これらのモデルは、マルチサブジェクト・プロンプト、画像品質、タイポグラフィのパフォーマンスを向上させることに重点を置いている。これらのモデルは、マーケティング、広告、メディア、エンターテインメント、小売業などの様々な用途において高品質のビジュアルを生成するように設計されている。
-
PayPal社、Cosmos.AI MLOpsプラットフォームにLLMを利用した生成AIサポートを追加
PayPal社はMLOpsプラットフォームCosmos.AIを拡張し、大規模言語モデル(LLM)を使用したジェネレーティブAIアプリケーションの開発をサポートする。同社は、ベンダー、オープンソース、自己調整LLMへのサポートを取り入れ、検索拡張生成(RAG)、セマンティックキャッシュ、プロンプト管理、オーケストレーション、AIアプリケーションのホスティングに関する機能をリリースした。
-
大学の研究者がLLMにおける思考連鎖推論の分析を発表した
プリンストン大学とイェール大学の研究者が、LLMにおけるChain-of-Thought(CoT)推論のケーススタディを発表した。このケーススタディでは、暗記と真の推論の両方の証拠が示された。また、CoTは、プロンプトで与えられた例が正しくない場合でも機能することがわかった。
-
中国科学院大学オープンソース・マルチモーダルLLM LLaMA-Omni
中国科学院大学(UCAS)の研究者が最近、音声データとテキストデータの両方で動作するLLM、LLaMA-Omniをオープンソース化した。LLaMA-OmniはMetaのLlama-3.1-8B-InstructLLMをベースにしており、類似のベースラインモデルを凌ぐ性能を持ちながら、少ない学習データと計算量で動作する。
-
Googleが声を復元する音声転送AIを開発
Google Researchチームが、特定の人物の声でテキスト音声変換(TTS)をカスタマイズできるゼロショット音声変換(VT)モデルを開発した。これにより、パーキンソン病やALSなどで声を失った話者が、TTSデバイスを使って元の声を再現できるようになる。このモデルは言語を跨いでも機能する。
-
Google、ゲームシミュレーションAI「GameNGen」を発表
Googleの研究チームはこのほど、ビデオゲーム「Doom」をシミュレートできる生成AIモデル「GameNGen」に関する論文を発表した。GameNGenは、毎秒20フレーム(FPS)でゲームをシミュレートでき、人間による評価では、実際のゲームよりも好まれる頻度がわずかに低かった。
-
HelixML、Helix 1.0のリリースを発表
HelixMLは、生成AIのためのHelixプラットフォームがバージョン1.0で製品化準備が整ったことを発表した。このプラットフォームは「プライベートGenAIスタック」と称され、様々な大規模言語モデル(LLM)に接続できるインターフェース層とアプリケーションを提供する。このプラットフォームは、ラップトップ1台からアプリケーションのプロトタイプを作成でき、すべてのコンポーネントがバージョン管理されているため、有効性が証明されたアプリケーションのその後の展開や拡張が容易である。また、LLMの非決定論的な領域では、テストの代わりとして(eval)が重視されている。
-
Apple社、Apple Intelligenceを支えるApple Foundation Modelsを発表
Apple社は、Apple Intelligence suiteのいくつかの機能を提供する大規模言語モデル(LLM)ファミリーである新しいApple Foundation Models(AFM)の詳細を発表した。AFMには、30億パラメータのオンデバイス版と、より大きなクラウドベース版の2つのサイズがある。
-
チーム・イネーブラーとしてのLLMとエージェント
Scrum.orgは最近、COOであるEric Naiburg氏によるAI as a Scrum Team Member と題した記事を掲載した。Naiburg氏は、スクラムマスター、プロダクトオーナー、開発者にとっての生産効率の利点を説明した上で、読者にAIが「チームメンバー」としてスクラムチームに「シームレスに統合されていることを想像する」よう呼びかけた。Thoughtworks社のAIアシストソフトウェアデリバリーのグローバルリードであるBirgitta Böckeler氏も最近、「Exploring Generative AI」と題した記事を発表し、エンジニアリングシナリオにおけるLLM(大規模言語モデル)の使用を含む実験に関する洞察を共有した。同実験においては、LLM(大規模言語モデル)がソフトウェアデリバリーチームに相乗効果をもたらしている可能性がある。
-
Mistral AI、3つのオープンウエイト言語モデルをリリース
Mistral AIは3つのオープンウェイト言語モデルをリリースした:12Bパラメータの汎用LLM「Mistral NeMo」、7Bパラメータのコード生成モデル「Codestral Mamba」、数学と推論用に微調整された7Bパラメータのモデル「Mathstral」である。この3つのモデルはすべてApache 2.0ライセンスで提供されている。
-
Amazon MemoryDBがAWSで最速のベクトル検索を提供する
AWSは最近、Multi-AZで利用可能なマネージド・インメモリ・データベースであるAmazon MemoryDBのベクトル検索の一般提供を発表した。この新機能は、AWS上のベクトルデータベースの中でもっとも高いリコール率で、超低レイテンシーと最速のベクトル検索性能を提供する。
-
ソフトウェア・チームのストリームアラインド、プラットフォーム兼任化による生産性の向上
増加する仕事量を効率的に管理し、品質と効率を維持するために、あるソフトウェア・チームはストリーム・アラインドとプラットフォームの2つの目的を持つことにした。エンドユーザーに迅速に価値を提供し、チームの成果を安定的に維持するために、彼らはメインアプリケーションをAPIファーストに書き換え、顧客向け製品にマイクロリリースを導入した。Marion Løken氏は、NDCオスロで彼女のソフトウェア・チームが経験した変化について語った。
-
Alibaba、数学と音声チャット用の2つのオープンウェイト言語モデルをリリース
Alibabaは2つのオープンウェイト言語モデルファミリーをリリースした。Qwen2-Math は数学の問題を解くために調整されたLLMで、Qwen2-Audio は音声やテキスト入力を受け付けるマルチモーダルLLMである。両ファミリーはAlibabaのQwen2 LLMシリーズをベースにしており、Qwen2-Mathの最大バージョンを除くすべてがApache2.0ライセンスで提供されている。