BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Microsoftがニューラルテキスト読み上げAIへの限定アクセスを発表

Microsoftがニューラルテキスト読み上げAIへの限定アクセスを発表

原文(投稿日:2021/02/14)へのリンク

最近、Microsoftは、Custom Neural Voiceと呼ばれるニューラルテキスト読み上げAIへの制限付きアクセスを発表した。このサービスにより、開発者はカスタム合成音声を作成できる。

Custom Neural Voiceは、Azure Cognitive ServicesのSpeechにおけるText-to-Speech(TTS)機能である。この機能により、ユーザはブランドに合わせて独自のカスタマイズされた合成音声を作成できるようになる。昨年9月のプレビュー以来、この機能はAT&T、Duolingo、Progressive、Swisscomなどの様々な顧客が、顧客向けのブランド音声ソリューションを開発するのに役立った。この機能は一般向けに利用可能(GA)である。ただし、顧客がCustom Neural Voiceへアクセスする際には、サービスの誤用を防ぐための技術的な制御が適用される。顧客はサービスを利用するために申請する必要がある。

カスタムニューラルボイス用のMicrosoftの基盤となるニューラルTTSテクノロジは、3つの主要コンポーネントで構成される。その3つは、テキストアナライザニューラル音響モデルニューラルボコーダーである。最初のコンポーネントであるテキストアナライザは、テキストから自然な合成音声を生成する役割を持っている。テキストは最初にテキストアナライザーに入力される。テキストアナライザーは、音素(特定の言語で単語を他の単語と区別する基本的な音の単位)シーケンスの形式で出力を提供する。次に、音素シーケンスは、テキストで提供される単語の発音を定義する。これは、音色、話し方、速度、イントネーション、ストレスパターンなどの音声信号を定義する音響特性を予測するためにニューラル音響モデルに入力される。そして最後に、ニューラルボコーダーは合成音声を生成するために、音響特性を可聴波に変換する。

ニューラルTTS音声モデルは、実際の音声録音サンプルに基づくディープニューラルネットワークを使用してトレーニングされる。カスタムニューラルボイスのカスタマイズ機能により、顧客はニューラルTTSエンジンをユーザシナリオに合わせて調整できる。カスタムニューラルボイスを活用するには、顧客はAzureアカウントとサブスクリプションが必要となる。その後、機能の使用が承認されると、カスタム音声プロジェクトを開始し、データをアップロードし、音声モデルをトレーニング、テスト、デプロイできるようになる。

 
出典: https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/how-to-custom-voice.md

顧客がカスタムニューラルボイスを利用できるユースケースはさまざまある。例えば、カスタマーサービスのチャットボット、音声アシスタント、オンライン学習、オーディオブック、公共サービスのお知らせ、リアルタイムの翻訳がある。アーリーアダプタの1人であるSwiss.comは、自社のブランドを独自に表す音声アシスタントを構築することで、より魅力的なカスタマーエクスペリエンスを作成したいと考えていた。Microsoftスイスのニュース記事で、著者は次のように書いている。

Swisscomは、スピーチサービスを使って、インテリジェントな多言語音声アシスタントの利用を顧客に提供しています。これにより、顧客体験を向上させ、独自のデジタル変革を加速させられます。

MicrosoftのプリンシパルプログラムマネージャーであるQinying Liao氏は、Azure AIブログの投稿で、カスタムニューラルボイスを活用する利点について説明している。

このテクノロジーを利用したカスタムニューラルボイスを使用すると、ユーザは少数のトレーニングオーディオで非常にリアルな音声を作成できます。この新しいテクノロジーにより、企業はトレーニングデータの準備に従来必要だった労力の10分の1を削減できることができます。同時に、従来のトレーニング方法と比較して合成音声出力の自然さを大幅に向上できます。

さらに、Constellation Research Inc.の主席アナリスト兼副社長であるHolger Mueller氏は、InfoQに次のように語っている。

コンピュータをより人間らしいものにするためには、音声が重要な要素である。2020年には、企業は、過去の合成音声の特徴的な、ロボットの標準化された音声から離れる必要がある。クラウドにより、このレベルのパーソナライズされた音声エクスペリエンスの作成が実現される。それは同時に、可用性、安価なコンピューティング、運用能力を備える。したがって、これはIaaS / PaaSプレーヤー全体に広く利用されるユースケースであり、企業とその顧客、さらには従業員がより人間的な経験を得るのに適している。

最後に、TTS音声モデルをカスタマイズする機能に加えて、Microsoftは54の言語とロケールをカバーする200を超えるニューラルおよび標準音声を提供している。

この記事に星をつける

おすすめ度
スタイル

BT