BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Microsoft SatinオーディオコーデックはAIを使用してSkype Silkよりも優れたパフォーマンスを得た

Microsoft SatinオーディオコーデックはAIを使用してSkype Silkよりも優れたパフォーマンスを得た

ブックマーク

原文(投稿日:2021/02/20)へのリンク

MicrosoftはSatinを発表した。これは、超低帯域幅と高度に制約されたネットワーク条件でSkypeのSilkコーデックよりも優れたパフォーマンスを得るためのAI技術を活用した新しいオーディオコーデックである。

現在、高い接続性が広く利用可能である。一方で、3Gと4Gのセルラーネットワークは会話の品質を制限することが多く、50%を超えるパケット損失があると共にカバーできていない箇所が散在している。このようにMicrosoftのJigar Dani氏とSriram Srinivasan氏は説明している。さらに、音声会話に必要な帯域幅を減らすことには、同じユーザまたは同じネットワーク接続を共有する他の人々による他の同時タスクに使用できる帯域幅を増やすという利点がある。

長い年月を経て、利用できるビットレートの利用については、あらゆる点でダイヤルアップの世界と同じくらい重要であることがわかりました。

Dani氏とSrinivasan氏によると、Satinは最大16KHzの周波数をカバーできる。これは「超広帯域」と呼ばれ、わずか6kbpsで、人間の音声サンプリングに使用される通常の8KHz帯域幅を2倍にする。比較として、Silkは同じ6kbpsビットレートで4KHzの帯域幅しか提供できなかった。

この改善は、2つのアプローチによって可能になる。エンコード側では、オーディオ信号のスパース表現のみが処理される。これは、音声生成と音響心理学のより高度なモデルによって可能になる。一方で、デコード側では次の通りである。

Satinは、ディープニューラルネットワークを使用して、受信した低帯域パラメーターから高帯域パラメーターを推定し、ネットワークを介して送信されるサイド情報を最小限に抑えます。

Microsoftは、ニューラルネットワーク(DNN)を使用した帯域幅拡張のアプローチに関する詳細を多くは発表していない。しかし、Google WaveNetテキスト読み上げシンセサイザーでも同様の手法が使用されている。WaveNetの場合、DNNは、8KHzコーデックでフィルタリングされたオーディオ信号を24KHzにアップサンプリングするようにトレーニングされている。このDNNを使用して再構築された信号は、16KHzでフィルタリングされたオーディオ信号よりもわずかに品質が低くなる。

Satinを使用したMicrosoftのアプローチは、詳細がどのように見えても、計算上の課題が明らかになっている。それは、エンコードとデコードの両方のステップが計算集約的であることであるとMicrosoftのエンジニアは説明している。

これを解決するために、チームは次に、アルゴリズムの最適化と、コンパイラーが達成できる範囲を超えたループベクトル化などの手法の両方に焦点を合わせました。これにより、計算の複雑さが40%近く削減され、すべてのユーザのデバイスで実行できるようになりました。

Satinの効果を評価するために、MicrosoftはA/Bテストを実施した。そこでは、低ビットレートでSatinが長い時間の通話ができ、Silkよりも1.7 MOSが高い意見スコアを獲得したことが示された。

最後に、Satinは、Wi-Fiやモバイルネットワークでよく見られるパケット損失に関して、Silkよりも優れている。Microsoftのエンジニアは、パケットを失っても後続のパケットに影響を与えないため、各パケットを個別にエンコードするというアプローチが違いを生んでいると説明している。

現在、SatinはTeamsとSkype通話に使用されており、まもなくTeams会議に拡張される予定である。将来的には、17kbpsのビットレートから始まり、最大48KHzのサンプリングレートでフルバンドステレオ音楽をサポートするとMicrosoftは言っている。

この記事に星をつける

おすすめ度
スタイル

BT