Microsoft、ニューラルネットワークによる音声合成機能をプレビュー

原文(投稿日：2018/12/19)へのリンク

最近のブログ記事で、MicrosoftはAzure Cognitive Servicesに含まれるニューラルネットワークによる音声合成機能のパブリックプレビューを発表した。今回のリリースで、生成された音声は実際の録音と区別がつかなくなる。この技術は、チャットボット、バーチャルアシスタント、電子書籍などデジタルテキストのオーディオブック変換に適用できる。

この技術は、この秋のMicrosoft Igniteで初めて明らかにされたもので、音声品質、ランタイム性能、サービス可用性の面で改善されてきた。

音声品質は、様々な話者による膨大な教師あり事前学習により改善された。さらに、教師なし事前学習からの多くのフィーチャーが含まれており、より堅牢なニューラルモデル設計になっている。Microsoftでテクニカルフェローを務めるXuedong Huang氏は、これら機能強化のメリットについて次のように説明している。

私たちの音声合成機能は、ディープニューラルネットワークを利用することで、韻律と呼ばれる音声言語のアクセントとイントネーションのパターンマッチングと、音素のコンピュータ音声への合成において、従来の音声合成システムの限界を克服しています。

音声合成システムは新しいものではないが、Huang氏は以前のシステムとMicrosoftの最新サービスの違いを次のように説明する。

従来の音声合成システムは、独立したモデルによって支配された言語分析と音響予測という別々のステップに韻律を分解します。これはこもった、うるさい音声合成になる可能性があります。私たちのニューラル機能は韻律予測と音声合成を同時に行います。これにより、より流暢で自然に聞こえる音声になります。

ハードウェアアクセラレーションを用いたコード最適化、並列推論モデル、モデルの単純化により、現在のニューラル音声合成エンジンの性能は以前のバージョンの6倍だ。ランタイム性能はほぼ即時だとMicrosoftは考えている。Huang氏は、今回の機能強化がサービスに与える影響について次のように説明する。

リアルタイムファクターは前のバージョンから0.05X未満に改善されました。つまり、1ミリのオーディオを50ミリ秒未満で生成できます。

Microsoftはコンピュータが生成した音声が「実際の録音と区別がつかない」ことを実証するサンプルをいくつか提供している。

文章	録音	音声合成
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

現在、プレビューサービスでは、Jessaと名付けられた女性の声とGuyと名付けられた男性の声を含む、事前に作成された2種類の英語の音声を提供している。今後、独自ブランドの音声を作りたい顧客のためのカスタマイズサービスとともに、追加の言語対応が利用できるようになるだろう。

AKS（Azure Kubernetes Service）はニューラル音声合成サービスを動かす基本インフラストラクチャを提供し、米国、欧州、アジアの3つのデータセンターで利用できる。

プレビュー期間中はディスカウントが利用できる。詳しくはAzureの料金ページを参照してほしい。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方