GoogleオープンソースAIで自然言語をモバイルUIアクションにマッピングする

原文(投稿日：2020/07/28)へのリンク

Googleは、一連の自然言語命令をモバイルデバイスのUIのアクションに変換するAIモデルをオープンソースにしている。モデルはTransformerディープラーニングアーキテクチャに基づいており、プロジェクト用に作成された新しいベンチマークデータセットで70％の精度を実現する。

Google Researchの科学者チームは、先頃のAssociation for Computational Linguistics (ACL) カンファレンスでこのモデルについて説明した論文を発表した。プロジェクトの目標は、視覚障害のあるユーザや一時的に「ハンズフリー」モードが必要なモバイルデバイスユーザ向けの自然言語インターフェースの開発を支援することである。システムは2つのTransformerモデルを順番に使用する。1つ目は自然言語の命令を一連の「アクションフレーズ」に変換し、2つ目はアクションフレーズを画面上のUIオブジェクトと照合することで「固定」する。リサーチサイエンティストのYang Li氏がプロジェクトについて説明しているブログ投稿では:

この作業は、UIの詳細を操作する必要性を軽減するモバイルデバイスでのタスク自動化の技術的基礎を築きます。これは、視覚的または状況的に障害のあるユーザにとって特に価値がある場合があります。

Transformerは、2017年にGoogleが開発した入力シーケンスを出力シーケンスにマッピングするためのディープラーニングアーキテクチャである。トレーニングの安定性や推論の高速化など、他のシーケンス学習アーキテクチャ（リカレントニューラルネットワーク（RNN）など）よりも優れている。その結果、ほとんどの最先端の自然言語処理（NLP）システムはTransformerベースである。Transformerの主要な操作にはattentionが必要だ。Transformerは、入力シーケンスと出力シーケンスの異なる部分間の関係を学習する。たとえば、ある言語から別の言語に翻訳するようにトレーニングされたTransformerでは、attentionは、多くの場合、ソース言語の単語とターゲット言語の単語へのマッピングの学習である。

Googleの新しいAIでは、1つのTransformerがarea attentionと呼ばれるattentionの形式を使用して、個別のアクションにマップされている入力命令内の隣接する単語のspansを識別する。このTransformerは、自然言語の入力命令のシーケンスを、UIアクションを表すタプルのシーケンスに変換する。各タプルは、操作 (「開く」や「クリック」など)、操作するオブジェクトの説明 (「設定」や「アプリドロワー」など)、およびオプションのパラメータ(たとえば、テキストボックスに入力する必要がある) である。これらのアクションを実行するには、正しいUIオブジェクトを識別することにより、これらのアクションを固定する必要がある。これは、2番目のTransformerによって行われる。このTransformerへの入力には、アクションフレーズのタプルと、現在デバイスの画面上にあるUIオブジェクトのセットの両方が含まれる。Transformerは、アクションフレーズタプルからの説明に基づいてオブジェクトを選択する方法を学習する。

モデルをトレーニングするために、Googleは2つのデータセットを作成した。アクションフレーズ抽出TransformerをトレーニングするためのAndroidHowToと呼ばれるデータセットは、Androidデバイスに関連する「ハウツー」の質問への回答をWebから収集することによって収集された。人間のアノテーターは、回答の指示でアクションフレーズのタプルを識別することにより、データにラベルを付けた。最終データセットには、19万のアクションを表す、ほぼ1万のラベル付き命令が含まれている。固定Transformerの場合、チームはRicoSCAと呼ばれる合成データセットを生成した。Androidアプリ用の72kのUI画面が含まれているRicoと呼ばれる一般公開されているデータセットから始めて、チームは画面からUI要素をランダムに選択し、それらに対して「タップ」や「クリック」などのコマンドを生成した。結果のデータセットには、約30万のコマンドが含まれている。

システムの全体的なパフォーマンスを評価するために、研究者たちは、Pixelスマートフォンのヘルプページから編集したPixelHelpというデータセットを作成した。人間のオペレーターは、Pixelフォンエミュレーターを使用して、ページに記載されているタスクを実行した。ロガーはそれらのアクションを記録し、それにより、自然言語の命令からUI操作へのマッピングが作成された。結果のデータセットには、187のマルチステップ命令が含まれている。新しいAIはこのデータセットで評価され、70.59％の精度を達成した。

Googleの新しいAIは、モバイルデバイスの自然言語自動化における多くの取り組みの1つである。Appleは2018年にSiri Shortcutsを導入した。これにより、ユーザは音声コマンドでトリガできる一連のアクションを定義できる。AmazonのAlexは最近、ディープリンクをサポートするアプリを自動化する機能を導入した。SiriとAlexaの両方のソリューションでは、アプリが明示的にそれらをサポートする必要がある。対照的に、GoogleのAIはデバイスのUIで直接操作することを学習し、あらゆるアプリで使用できるようにする。

Googleのモデルとデータセット生成コードはGitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

AnthropicがMCPトンネルを導入、内部システムへのプライベート・エージェントアクセスのため

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027