InfoQ ホームページ AIと機械学習、データエンジニアリング に関するすべてのコンテンツ
-
Googleが声を復元する音声転送AIを開発
Google Researchチームが、特定の人物の声でテキスト音声変換(TTS)をカスタマイズできるゼロショット音声変換(VT)モデルを開発した。これにより、パーキンソン病やALSなどで声を失った話者が、TTSデバイスを使って元の声を再現できるようになる。このモデルは言語を跨いでも機能する。
-
OpenAIがGPT-4oサポートとAPI拡張を含む.NETライブラリの安定版をリリース
6月のベータ版に続き、OpenAIが、公式.NETライブラリの安定版をリリースした。NuGetパッケージとして利用可能で、GPT-4oやGPT-4o miniのような最新モデルと、OpenAI REST APIの全機能をサポートしている。このリリースには同期および非同期APIの両方、ストリーミングチャット補完機能、そしてAPI一貫性向上のための重要な互換性のない変更が含まれている。開発者はライブラリを拡張し、.NET Standard 2.0をサポートするすべての.NETプラットフォーム上で使用できる。
-
AWS、NVIDIA H100 Tensor Core GPUを搭載したEC2 P5eインスタンスの一般提供を発表
Amazon Web Services(AWS)は、AI、機械学習、ハイパフォーマンス・コンピューティング(HPC)アプリケーション向けのコンピューティング・インフラを強化するため、NVIDIA H100 Tensor Core GPUを搭載したAmazon EC2 P5eインスタンスを正式にリリースした。
-
Google、ゲームシミュレーションAI「GameNGen」を発表
Googleの研究チームはこのほど、ビデオゲーム「Doom」をシミュレートできる生成AIモデル「GameNGen」に関する論文を発表した。GameNGenは、毎秒20フレーム(FPS)でゲームをシミュレートでき、人間による評価では、実際のゲームよりも好まれる頻度がわずかに低かった。
-
セキュリティ専門家がSQLインジェクションで空港セキュリティの抜け穴を突く
「SQLインジェクションによる空港セキュリティのバイパス」という記事で、2人のセキュリティ研究者が最近、単純なSQLインジェクションによって実際に勤務実態がないパイロットおよび客室乗務員が空港保安検査をバイパスすることが可能になることを実証した。研究者によると、この脆弱性によって架空のユーザーを作成し、保安検査を回避し、民間旅客機のコックピットにアクセスすることが可能になったという。
-
CockroachDBが無料のCoreバージョンを終了、オープンソースコミュニティで懸念が高まる
CockroachDB Labsは最近、同社の分散型SQLデータベースのライセンスモデルの変更を発表し、無料のCoreバージョンを廃止してEnterpriseバージョンを唯一のオプションとした。以前、オープンソースライセンスから脱却したが、この最新の変更は、シングルベンダーによって管理されるオープンソースソリューションの将来性について、コミュニティにさらなる疑問を投げかけた。
-
HelixML、Helix 1.0のリリースを発表
HelixMLは、生成AIのためのHelixプラットフォームがバージョン1.0で製品化準備が整ったことを発表した。このプラットフォームは「プライベートGenAIスタック」と称され、様々な大規模言語モデル(LLM)に接続できるインターフェース層とアプリケーションを提供する。このプラットフォームは、ラップトップ1台からアプリケーションのプロトタイプを作成でき、すべてのコンポーネントがバージョン管理されているため、有効性が証明されたアプリケーションのその後の展開や拡張が容易である。また、LLMの非決定論的な領域では、テストの代わりとして(eval)が重視されている。
-
XプラットフォームでGrok-2ベータ版がリリースされた
Grok-2言語モデルがXプラットフォーム上でベータ版としてリリースされ、Grok-2 miniと共に発表された。LMSYSリーダーボード上で「sus-column-r」という名称でテストされたこのモデルは、Claude 3.5 Sonnetと GPT-4-ターボと比較して高いEloスコアを達成した。Grok-2 miniは、処理速度とパフォーマンスのバランスを重視して設計された軽量版で、ベータリリースの一部である。
-
Apple社、Apple Intelligenceを支えるApple Foundation Modelsを発表
Apple社は、Apple Intelligence suiteのいくつかの機能を提供する大規模言語モデル(LLM)ファミリーである新しいApple Foundation Models(AFM)の詳細を発表した。AFMには、30億パラメータのオンデバイス版と、より大きなクラウドベース版の2つのサイズがある。
-
チーム・イネーブラーとしてのLLMとエージェント
Scrum.orgは最近、COOであるEric Naiburg氏によるAI as a Scrum Team Member と題した記事を掲載した。Naiburg氏は、スクラムマスター、プロダクトオーナー、開発者にとっての生産効率の利点を説明した上で、読者にAIが「チームメンバー」としてスクラムチームに「シームレスに統合されていることを想像する」よう呼びかけた。Thoughtworks社のAIアシストソフトウェアデリバリーのグローバルリードであるBirgitta Böckeler氏も最近、「Exploring Generative AI」と題した記事を発表し、エンジニアリングシナリオにおけるLLM(大規模言語モデル)の使用を含む実験に関する洞察を共有した。同実験においては、LLM(大規模言語モデル)がソフトウェアデリバリーチームに相乗効果をもたらしている可能性がある。
-
Mistral AI、3つのオープンウエイト言語モデルをリリース
Mistral AIは3つのオープンウェイト言語モデルをリリースした:12Bパラメータの汎用LLM「Mistral NeMo」、7Bパラメータのコード生成モデル「Codestral Mamba」、数学と推論用に微調整された7Bパラメータのモデル「Mathstral」である。この3つのモデルはすべてApache 2.0ライセンスで提供されている。
-
Amazon MemoryDBがAWSで最速のベクトル検索を提供する
AWSは最近、Multi-AZで利用可能なマネージド・インメモリ・データベースであるAmazon MemoryDBのベクトル検索の一般提供を発表した。この新機能は、AWS上のベクトルデータベースの中でもっとも高いリコール率で、超低レイテンシーと最速のベクトル検索性能を提供する。
-
YouTubeでの音楽レコメンドにTransformerアーキテクチャを活用
Google社は、現在の生成AIブームの火付け役であるトランスフォーマーモデルを音楽レコメンドに活用するアプローチについて説明した。現在YouTubeで実験的に適用されているこのアプローチは、音楽を聴く際のユーザーの一連の行動を理解し、そのコンテキストに基づいてユーザーの好みをより的確に予測できるレコメンダーを構築することを目的としている。
-
Microsoft .NET Conf:Focus on AI
先月、.NET Conf: Focusの2024年最新版が開催され、AI開発のトピックが取り上げられた。このイベントは、あらゆるレベルの開発者を対象とし、.NETエコシステムでの人工知能の使用方法を紹介する情報セッションとハンズオン・セッションの両方が行われた。このイベントは、フォーカス・シリーズの中でも最も技術的なイベントの1つで、質の高い、深く掘り下げたセッションが数多く行われた。
-
InfoQ Dev Summit Munich 2024 Summer セール情報:生成AI、サプライチェーンセキュリティ、スケーラブルアーキテクチャとは
InfoQ Dev Summit Munich(9月26-27日)まで、残り40日を切った。20人以上の現役シニアソフトウェア開発者が、実用的なヒントをもりこんで公平に講演する。開発ロードマップ作りでの手堅い選択にすぐ役立つだろう。