ML Kit GenAI Prompt APIIがアルファ版で利用可能となり、Android開発者はデバイス上で動作するGemini Nanoに自然言語およびマルチモーダルリクエストを送信できるようになった。このAPIは、初期のGenAIリリースで導入されたテキスト要約や画像説明の機能を拡張するものである。
新しいAPIは、テキスト入力または画像とテキストの組み合わせを受け付け、テキスト応答を生成する。Google社によると、このAPIは短い翻訳、画像およびテキストの分類、コンテンツ生成など、さまざまなモバイルユースケースで自然言語プロンプトの利用を可能にするという:
Prompt APIは、事前構築された機能を超えて、カスタムおよびアプリ固有のGenAIユースケースをサポートし、複雑なデータ変換を伴う独自の機能を作成できるようにします。Prompt APIはデバイス上でGemini Nanoを使用してデータをローカルに処理し、オフライン機能とユーザープライバシーの向上を実現します。
新しいPrompt APIは、要約、校正、書き換え、画像説明など特定の機能を対象とした既存のGenAI APIと比較して、より低レベルのAPIと見なすことができる。より高い柔軟性を得る代わりに、統合にはより多くの労力が必要となる。
各機能特化型APIには、それぞれのユースケースに最適化された組み込みプロンプトが含まれており、開発者はプロンプト設計の負担から解放される一方で、いくつかの制約が課される。例えば、要約APIでは出力が1~3つの箇条書きに制限され、画像説明APIでは簡潔で一般的なキャプションが生成される。また、書き換えAPIでは「詳述」「短縮」「親しみやすい」など、固定されたスタイルのみがサポートされる。
一方、Prompt APIは、開発者がカスタムプロンプトを提供できることで、より柔軟性を持たせている。例えば、以下のコードスニペットは、リクエストと共に送信された画像をデバイス上のモデルがどのように処理するかを指示する完全にカスタマイズされたプロンプトを提供する方法を示している:
Generation.getClient().generateContent( generateContentRequest( ImagePart(bitmapImage), TextPart("Categorize this image as one of the following: car, motorcycle, bike, scooter, other. Return only the category as the response."), ) { // Optional parameters temperature = 0.2f topK = 10 candidateCount = 1 maxOutputTokens = 10 }, ) Google社によると、新しいPrompt APIはすでにKaKao Mobilityなどのパートナーによって統合されており、同社のアプリでは写真を撮ってカスタムプロンプトと共にモデルに送信するだけで、自転車が不適切に駐車されていることをユーザーに通知できるようになっている。また、KaKao Mobilityはアプリ内での住所入力エクスペリエンスを向上させるためにもPrompt APIを活用している。
Prompt APIは、Nano-v3を搭載したPixel 10シリーズのデバイスで最も高い性能を発揮する。しかし、Google Pixel 9シリーズ、Samsung Galaxy Z Fold7、Xiaomi 15など、他のデバイスでも使用可能であるが、これらの場合は性能が劣るNano-v2モデルのみが利用される。
JobNimbus社の最高AI責任者であるTyler Folkman氏は、LinkedInでのコメントで、KaKaoによる報告結果が「単なるAIデモ機能以上のものであることを示唆している」と指摘した。さらに、Prompt APIはまだ本格的な運用には至っていないものの、「プライバシーが絶対条件であり、ハードウェアを制御できる管理された環境」において有望であると考えているという。また、Folkman氏は、Prompt APIのAndroid統合における現在の制約として、バッテリー使用量の制限やバックグラウンド実行の非対応を挙げた。