Microsoft、ニューラルネットワークによる音声合成機能をプレビュー

原文(投稿日：2018/12/19)へのリンク

最近のブログ記事で、MicrosoftはAzure Cognitive Servicesに含まれるニューラルネットワークによる音声合成機能のパブリックプレビューを発表した。今回のリリースで、生成された音声は実際の録音と区別がつかなくなる。この技術は、チャットボット、バーチャルアシスタント、電子書籍などデジタルテキストのオーディオブック変換に適用できる。

この技術は、この秋のMicrosoft Igniteで初めて明らかにされたもので、音声品質、ランタイム性能、サービス可用性の面で改善されてきた。

音声品質は、様々な話者による膨大な教師あり事前学習により改善された。さらに、教師なし事前学習からの多くのフィーチャーが含まれており、より堅牢なニューラルモデル設計になっている。Microsoftでテクニカルフェローを務めるXuedong Huang氏は、これら機能強化のメリットについて次のように説明している。

私たちの音声合成機能は、ディープニューラルネットワークを利用することで、韻律と呼ばれる音声言語のアクセントとイントネーションのパターンマッチングと、音素のコンピュータ音声への合成において、従来の音声合成システムの限界を克服しています。

音声合成システムは新しいものではないが、Huang氏は以前のシステムとMicrosoftの最新サービスの違いを次のように説明する。

従来の音声合成システムは、独立したモデルによって支配された言語分析と音響予測という別々のステップに韻律を分解します。これはこもった、うるさい音声合成になる可能性があります。私たちのニューラル機能は韻律予測と音声合成を同時に行います。これにより、より流暢で自然に聞こえる音声になります。

ハードウェアアクセラレーションを用いたコード最適化、並列推論モデル、モデルの単純化により、現在のニューラル音声合成エンジンの性能は以前のバージョンの6倍だ。ランタイム性能はほぼ即時だとMicrosoftは考えている。Huang氏は、今回の機能強化がサービスに与える影響について次のように説明する。

リアルタイムファクターは前のバージョンから0.05X未満に改善されました。つまり、1ミリのオーディオを50ミリ秒未満で生成できます。

Microsoftはコンピュータが生成した音声が「実際の録音と区別がつかない」ことを実証するサンプルをいくつか提供している。

文章	録音	音声合成
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

現在、プレビューサービスでは、Jessaと名付けられた女性の声とGuyと名付けられた男性の声を含む、事前に作成された2種類の英語の音声を提供している。今後、独自ブランドの音声を作りたい顧客のためのカスタマイズサービスとともに、追加の言語対応が利用できるようになるだろう。

AKS（Azure Kubernetes Service）はニューラル音声合成サービスを動かす基本インフラストラクチャを提供し、米国、欧州、アジアの3つのデータセンターで利用できる。

プレビュー期間中はディスカウントが利用できる。詳しくはAzureの料金ページを参照してほしい。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco