InfoQ ホームページアーティクル AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

2023年10月5日読了時間 8 分

キーポイント

GPT-3やGPT-4のような大規模言語モデル（LLM）を搭載した生成AIは、ChatGPTのような技術で広く採用され、AIおよびML業界で大きな注目を集めている。
GoogleやMetaなどの大手テック企業は、独自の生成AIモデルを発表しており、これらの技術の進歩に対する取り組みがうかがえる。
ベクトルデータベースとエンベッディングストアは、生成AIアプリケーションにおけるオブザーバビリティ(可観測性)を強化する役割を担っており、注目を集めている。
大規模な言語モデルに対する安全対策の厳格化や、AIを通じてすべての人々の生活の質を向上させる取り組みの重視など、責任ある倫理的なAIへの関心が高まっている。
現代のデータエンジニアリングは、分散化された柔軟なアプローチへとシフトしており、ドメインごとに分割されたデータプラットフォームの統合を提唱するData Meshのようなコンセプトが登場している。

原文リンク(2023-09-06)

InfoQ Trends Reportsは、ITアーキテクトや技術リーダーが注目すべきトピックについて、InfoQ読者にハイレベルな情報を提供する。さらに、このレポートは、InfoQ編集チームが革新的な技術を取り上げるためのニュースの執筆や記事執筆者の募集に注力する助けにもなっている。

この年次報告書では、AI、ML、データエンジニアリングの現状と、ソフトウェアエンジニア、アーキテクト、データサイエンティストとして注目すべき新たなトレンドについて、InfoQの編集者が議論している。どのような話に発展しているかを理解するのに役立つよう、議論に解説を加えながら、テクノロジー採用ライフサイクル上の曲線にまとめている。

今年のポッドキャストでは、ChimeのソフトウェアエンジニアであるSherin Thomas氏が外部パネリストとして参加した。この記事の以下のセクションでは、これらのトレンドの一部と、さまざまなテクノロジー採用ライフサイクル上の曲線のどの位置にあるかを要約したものである。

生成AI

GPT-3、GPT-4、Chat GPTのような大規模言語モデル（LLM）を含む生成AIは、AIとML業界で大きな力となっている。これらのテクノロジーは、特に昨年の進歩を考えると、大きな注目を集めている。特にChatGPTに牽引され、これらの技術はユーザーに幅広く利用された。GoogleやMetaなど複数の企業が独自の生成AIモデルを発表している。

我々が期待する次のステップは、これらの大規模な言語モデルを企業環境で運用するLLMOpsにもっと焦点を当てることだ。プロンプトエンジニアリングが今後大きなトピックになるのか、それとも普及が進み、誰でも使用できるプロンプトに貢献できるようになるのかは、意見が分かれるところだ。

ベクトルデータベースとエンベッディングストア

LLM技術の台頭とともに、ベクトルデータベースとエンベッディングストアに注目が集まっている。興味深いアプリケーションの1つは、生成AIアプリケーションにおけるオブザーバビリティを高めるために、文の埋め込みを使用することだ。

ベクトル検索データベースの必要性は、大規模言語モデルのトークンの履歴が有限であるという限界から生じている。ベクトルデータベースは、このような言語モデルによって生成された特徴ベクトルとして文書の要約を保存でき、潜在的には数百万以上の特徴ベクトルになる可能性がある。従来のデータベースでは、データセットが大きくなるにつれて、関連文書を見つけることが困難になる。ベクトル検索データベースは、効率的な類似性検索を可能にし、クエリベクトルにもっとも近い近傍ベクトルを見つけられるようになり、検索プロセスを向上させる。

注目すべき動向は、これらのテクノロジーに対する資金調達の急増であり、投資家がその重要性を認識しているのを物語っている。開発者の間での普及は遅れているが、今後数年で回復すると予想されている。Pineconeや Milvusのようなベクトル検索データベースや、Chromaのようなオープンソースのソリューションが注目を集めている。データベースの選択は、特定のアプリケーションと、検索されるデータの性質に依存する。

地球観測を含む様々な分野で、ベクトルデータベースはその可能性を示してきた。例えばNASAは、自己学習とベクトル検索技術を活用して地球の衛星画像を分析し、ハリケーンなどの気象現象を長期にわたって追跡する科学者を支援している。

ロボット工学とドローン技術

ロボットのコストは下がっている。以前は脚式バランスロボットは入手困難だったが、すでに1,500ドル前後で購入できるモデルもある。これにより、より多くのユーザーが用途に応じてロボット技術を利用できるようになった。ロボットオペレーティングシステム（ROS）は依然としてこの分野の主要なソフトウェアフレームワークだが、VIAMのような企業も、ロボット開発のためのプラグインの統合や設定を容易にするミドルウェアソリューションを開発している。

自己学習と基礎モデルの進歩により、能力の向上につながることが期待される。例えば、大規模な言語モデルをロボットの経路計画部分に統合することで、自然言語を使った計画を可能にできる。

責任ある倫理的なAI

AIが全人類に影響を及ぼし始めるにつれ、責任ある倫理的なAIへの関心が高まっている。人々は、大規模な言語モデルに関する安全性の厳格化を求めながらも、そのようなモデルの出力内容には苛立ち、安全対策が講じられているのだと感じてしまうのである。

一部の人々だけでなく、すべての人々の生活を向上させることをエンジニアが念頭に置くことが重要であることに変わりはない。我々は、GDPRが数年前に受けたのと同様の影響をAI規制がもたらすと予想している。

我々は、粗悪なデータのためにいくつかのAIが失敗してしまうのを見てきた。データの発見、運用、データのリネージ、ラベリング、そして優れたモデル開発の実践が中心的な役割を果たすだろう。データは説明可能性（出力結果に至った経緯や判断の根拠を説明できること）にとって極めて重要である。

データエンジニアリング

現代のデータエンジニアリングの状況は、増え続けるデータを管理するために、より分散化された柔軟なアプローチへとダイナミックにシフトしている。中央集権的なデータ管理チームがデータ運用のボトルネックとなっている課題に対処するため、データメッシュという斬新なコンセプトが登場した。データメッシュは、ドメインごとに分割された統合データプラットフォームを提唱しており、そこではデータはプロダクトとして扱われる。これにより、ドメイン所有者はデータプロダクトの所有権と管理権を持つことができ、中心となるチームへの依存を減らせる。有望ではあるが、データメッシュの採用は専門知識に関するハードルに直面する可能性があり、セルフサービス機能のための高度なツールとインフラが必要となる。

データのオブザーバビリティは、アプリケーションアーキテクチャにおけるシステムのオブザーバビリティと同様に、データエンジニアリングにおいて最重要となっている。オブザーバビリティは、特に機械学習の観点では、データオブザーバビリティを含むすべてのレイヤーで不可欠である。データの信頼性はAIの成功にとって極めて重要であり、データオブザーバビリティに対するソリューションは、データ品質、モデルのドリフト（モデルがデータの変化に対応しきれず、精度が劣化してしまうこと）、信頼性の高い機械学習の成果を確保する探索的データ分析を監視するのに不可欠である。データ管理におけるこのパラダイムシフトと、データとMLパイプラインにわたるオブザーバビリティの統合は、現代におけるデータエンジニアリングの進化した状況を反映している。

テクノロジー採用ライフサイクル曲線図の更新に関する記述

このトレンドレポートでは、特定の技術の状況を示すグラフも更新されている。このカテゴリーは、Geoffrey Moore氏の著書"Crossing the Chasm"に基づいている。InfoQでは、まだキャズム（顧客に新しい商品やサービスを浸透させる際に発生する、乗り越えるべき大きな障害のこと）を越えていないカテゴリーに焦点を当てている。

イノベーターからアーリーアダプターへのアップグレードとして注目すべきは、「AIコーディングアシスタント」である。昨年は非常に新しく、ほとんど利用されていなかったが、従業員がより効率的に働けるようにサービスとして提供する企業が増えてきている。すべての製品にデフォルトで入っているわけではないし、もっとも効果的な使い方を模索している最中だが、利用者は今後も増えていくと考えている。

今まさにキャズムを超えつつあると我々が考えているのは、自然言語処理である。ChatGPTの大成功を受け、多くの企業が自社製品に生成AI機能を採用する方法を模索しているからだ。我々はこのように、すでにアーリー・マジョリティのカテゴリーにあるキャズムを超えることにした。ここにはまだ多くの成長の可能性があり、何がこの技術のベストプラクティスと能力なのか、時が経つにつれて分かってくるだろう。

全く動かなかった注目すべきカテゴリーもある。合成データ生成、ブレイン・コンピューター・インターフェイス、ロボット工学といった技術だ。これらはすべて、一貫してイノベーター・カテゴリーに留まっているようだ。この点でもっとも有望なのは、合成データ生成の話題であり、これは生成AI関連の宣伝とともに、昨今より一層注目されている。学習データの生成について語る企業は増えてきているが、アーリーアダプターのカテゴリーに移行することを正当化できるほど、実際にスタックでそれを使用しているアプリケーションはまだ見られない。ロボット工学はここ数年注目されているが、その採用率はまだ低く、アーリーアダプターカテゴリーへの移行を正当化するには至っていない。

また、グラフにいくつかの新しいカテゴリーを導入した。特筆すべきはベクトル検索データベースで、これは生成AI関連の宣伝における副産物として生まれたものだ。概念をベクトルとして表現する方法について理解が深まるにつれ、そのベクトルを効率的に保存・検索する必要性も高まっている。我々はまた、説明可能なAIをイノベーターカテゴリーに加えた。私たちは、コンピューターがある決定を下した理由を説明することは、ハルシネーション（事実とは異なる/文脈と無関係な内容を出力してしまうこと）やその他のリスクに対処するため、普及は必要不可欠だと考えている。しかし、現在のところ、より高いカテゴリーを正当化できるほどの仕事は、この業界には見当たらない。

結論

AI、ML、データエンジニアリングの分野は年々成長を続けている。技術的な能力だけでなく、応用可能な分野においても、まだまだ多くの成長が見込まれている。私たちInfoQの編集者にとって、このような進歩を間近で見られるのは刺激的なことであり、来年も同じレポートを作成するのを楽しみにしている。ポッドキャストでは、「汎用人工知能（AGI）は存在しないだろう」というものから「自律型エージェントは存在するだろう」というものまで、来年の予測をいくつか述べている。ポッドキャストを楽しみ、この記事を読んでいただけたら幸いである。

作者について

Roland Meertens

もっと見るより少なく

Srini Penchikala

もっと見るより少なく

Sherin Thomas

もっと見るより少なく

Daniel Dominguez

もっと見るより少なく

Anthony Alford

もっと見るより少なく

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

キーポイント

関連スポンサーコンテンツ

生成AI

ベクトルデータベースとエンベッディングストア

ロボット工学とドローン技術

責任ある倫理的なAI

データエンジニアリング

テクノロジー採用ライフサイクル曲線図の更新に関する記述

結論

作者について

Roland Meertens

Srini Penchikala

Sherin Thomas

Daniel Dominguez

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

トレンド

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。