BT

最新技術を追い求めるデベロッパのための情報コミュニティ

English edition
Chinese edition
Japanese edition
French edition

ここに入力

電子メール

パスワード

InfoQアカウントのメール

再設定用のメールを再送する

Login with:

Google Microsoft Twitter Facebook

アカウントをお持ちでない方

サインアップ/ログイン

Logo - Back to homepage

ニュースアーティクルプレゼンテーションポッドキャスト Eブック

Topics

デベロップメント

Java
Clojure
Scala
.Net
モバイル
Android
IoT
HTML5
JavaScript
Functional Programming

注目のデベロップメント

Spring BootによるAPIバックエンド構築実践ガイド第2版

何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

のすべてを見る development

設計/アーキテクチャ

Architecture
エンタープライズアーキテクチャ
パフォーマンス&スケーラビリティ
Design
デザインパターン
セキュリティ

注目の設計/アーキテクチャ

Netflixで2億3800万人の会員を管理するということ

Netflixのシニア・ソフトウェア・エンジニアであるSurabhi Diwan氏は、QCon San Francisco 2023で"Managing 238M Memberships at Netflix"と題して講演した。同氏の講演では、Netflixのメンバーシップ・チームがどのように分散システムを構築しているのか、つまり、Netflixの増え続ける会員ベースのニーズに応えるためのアーキテ...

のすべてを見る architecture-design

AIと機械学習、データエンジニアリング

Big Data
データベース

注目の AIと機械学習、データエンジニアリング

Pinterestの広告ランキングの仕組みを解き明かす

PinterestのStaff Machine Learning EngineerであるAayush Mudgal氏は、QCon San Francisco 2023でUnpacking how Ads Ranking Works at Pinterestというセッションを行った。その中で彼は、Pinterestがどのようにディープラーニングとビッグデータを使って、ユーザーに関連する広告をカスタマ...

のすべてを見る ai-ml-data-eng

カルチャー＆手法

Agile
リーダーシップ
Team Collaboration
テスト
UX
Scrum
Lean/Kanban

注目のカルチャー＆手法

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

As an engineering manager, it is your responsibility to help facilitate creative thinking skills among the development team, but that's easier said than done. This article provides advice on how can y...

のすべてを見る culture-methods

運用/インフラ

Automation
Containers
クラウドコンピューティング

注目の DevOps

Low Code/No Codeを採用する：確認するべき6つの適性

LCNC（ローコード/ノーコード）プラットフォームは、プログラマーだけでなくプログラマーでなくても、最小限のコーディングとワンクリックのデプロイメントで、アプリケーションソフトウェアを開発できるよう設計されている。ドラッグ＆ドロップ方式のインターフェースなどを利用することで、開発・デプロイメントプロセスを簡素化し、効率的なアプリケーション開発とデプロイメントを実現する。

のすべてを見る devops

役に立つリンク集

InfoQについて
InfoQのライター
寄稿
C4Mediaについて
Diversity

地域を選ぶ

En
中文
日本
Fr

InfoQ Dev Summit Boston

Discover transformative insights to level up your software development decisions. Register now with early bird tickets.

InfoQ Dev Summit Munich

Get practical advice from senior developers to navigate your current dev challenges. Register now with early bird tickets.

QCon San Francisco

Level up your software skills by uncovering the emerging trends you should focus on. Register now.

The Software Architects' Newsletter

Your monthly guide to all the topics, technologies and techniques that every professional needs to know about. Subscribe for free.

InfoQ ホームページニュース Googleが精度92％の話者ダイアリゼーションAI技術をオープンソース化

Emerging Technologies

Googleが精度92％の話者ダイアリゼーションAI技術をオープンソース化

ブックマーク

2019年1月9日読了時間 5 分

作者：

Kent Weare

翻訳者

編集部T _

原文(投稿日：2018/11/25)へのリンク

最近のブログ記事で、Googleは彼らの話者ダイアリゼーション技術をオープンソース化したと発表した。それによって人々の声を高い精度で区別することができる。Googleは、複数の参加者を含むオーディオストリームを参加者ごとの同種のセグメントに分割することでこれを実現できる。

音声を同種のセグメントに分割することには多くの応用がある。Googleのリサーチサイエンティスト、Chong Wang氏は次のように説明する。

「誰がいつ話したのか」という問題を解決することで、話者ダイアリゼーションは、医学的会話の理解、ビデオキャプションの作成など、多くの重要なシナリオに応用できます。

会話を正確にセグメント化できるようになると、オンラインとオフラインの両方のダイアリゼーションシステムの品質が向上する。これはヘルスケア業界で多くの実用的な恩恵をもたらす。最近のAnnals Family Medicine Journalが次のように報告している。

医師は、文書化された電子健康記録（EHR）に、11時間の勤務時間のうち6時間を費やすこともあります。その結果、ある調査によると、調査を受けた医師の半数以上が少なくとも1回は燃え尽き症候群となったことを報告しています。

教師付き学習を使用して音声ディクテーションシステムをトレーニングすることはこれまで困難であったとWang氏は説明する。

教師付き学習でこれらのシステムを訓練することは困難です。標準的な教師付き分類作業とは異なり、強固なダイアリゼーションモデルには、訓練に関与していなかった別個の音声セグメントと新しい個人を関連付ける能力が必要です。重要なこととして、これはオンラインとオフラインの両方のダイアリゼーションシステムの品質に影響します。

ストリーミングオーディオ入力でオンライン話者ダイアリゼーションを使用すると、次の図に示すように、下の軸に異なる色で表示されているさまざまな話者を検出できる。

画像引用元: https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

Googleは Fully Supervised Speaker Diarizationと呼ばれる研究論文を発表した。そこでは、従来のアプローチよりも効果的な方法で教師付き話者ラベルを使用する新しいモデルが導入された。このモデル内では、会話に参加している話者の数を識別する推定が行われ、それによってラベル付きデータの量が増加する。

NIST SRE 2000 CALLHOMEベンチマークの一部で、Googleの手法は7.6％という低いダイアリゼーションエラーレート（DER）を達成した。DERは「ダイアリゼーション出力で誤ってラベル付けされた入力信号のパーセンテージ」として定義される。これは、クラスタリングベースの方法を使用して達成された8.8% DERと、ディープニューラルネットワーク埋め込み方式を使用して達成されている9.9% DERを超える改善である。

最近の話者ダイアリゼーションシステムは、通常、k平均またはスペクトルクラスタリングのようなクラスタリングアルゴリズムを利用する。Wang氏は、これらのアプローチを使用することのいくに対するいくつかの欠点を説明している。

これらのクラスタリング方法は教師なしですので、データ内の教師つき話者ラベルをうまく利用することができませんでした。さらに、オンラインクラスタリングアルゴリズムは、ストリーミングオーディオ入力を伴うリアルタイムダイアリゼーションアプリケーションでは通常、品質が悪くなります。我々のモデルと一般的なクラスタリングアルゴリズムの主な違いは、我々の方法では、すべての話者の埋め込みがパラメータ共有リカレントニューラルネットワーク（RNN）によってモデル化されていることです。そして、時間領域でインターリーブされた、異なるRNN状態を使用して異なる話者を区別します。

このモデルがどのように機能するかを説明するために、4つの異なる話者（モデルは未知数の話者に対応できる）を考える。それぞれを独自の色（青、黄、ピンク、緑）で表す。各話者は、独自のRNNインスタンスを持ち、初期状態がすべての話者間で共有される。話者は別の話者が話し始めるまで自身のRNNを更新し続ける。たとえば、青い話者は黄色い話者に移行するまでに会話を開始するかもしれない。これら両方の時間枠の間、各話者は、自身が話している間に自身のRNNを更新する。会話がある話者から別の話者に移るにつれて、これはすべての参加者にまたがって起こる。

画像引用元: https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

Wang氏は、RSS状態を使用することが重要である理由を説明している。

話者をRNN状態として表現することで、RNNパラメータを使用して、さまざまな話者や発話で共有される高度な知識を習得することができます。これにより、ラベル付きデータの有用性が高まります。これとは対照的に、一般的なクラスタリングアルゴリズムは、ほとんどの場合、各単一の発話を個別に処理するため、大量のラベル付きデータの恩恵を受けることは困難です。

RSSの状態に基づくアプローチを使用することによる出力は、誰がどのくらいの期間話したかを識別するタイムスタンプ付きの話者ラベルである。さらに、このアプローチはリアルタイム性が要求されるアプリケーションに適している。

今後も、GoogleはDERをさらに削減し、オフラインのデコードを実行するためにコンテキスト情報を統合していく。話者ダイアリゼーション技術についてさらに学ぶために、Googleは論文を発表し、そのソースコードをGitHubで公開した。

Rate this Article

Adoption Stage

Style

Editor Review
Chief Editor Action

Submit Author Contacted

この記事に星をつける

おすすめ度

スタイル

Author Contacted

このコンテンツのトピックは Emerging Technologies です。

関連記事:

設計/アーキテクチャ
AIと機械学習、データエンジニアリング
Google
オープンソース
Artificial Intelligence
Emerging Technologies

関連記事

関連するコンテンツ

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

あなたのメールアドレスはこちら

国を選んでください。

InfoQ.com がプライバシーポリシーに従って私の個人情報を扱うことに同意します。

We protect your privacy.

デベロップメント
設計/アーキテクチャ
カルチャー＆手法
AIと機械学習、データエンジニアリング
DevOps

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

様々なイノベーターとアーリーアダプターがお送りするテクノロジーの概要を見る。
自分がまだ知らないことに気づいていないと知る
あなたが興味のあるトピックスをいつでも最新な情報に。

あなたのメールアドレスはこちら

国を選んでください。

InfoQ.com がプライバシーポリシーに従って私の個人情報を扱うことに同意します。

We protect your privacy.

ホームアカウントを作る QCon Conferences Events 寄稿 InfoQのライター InfoQについて C4Mediaについて Diversity

Events

QCon London
APRIL 7-9, 2025
InfoQ Live Roundtable
APRIL 23, 2024
InfoQ Dev Summit Boston
JUNE 24-25, 2024
InfoQ Dev Summit Munich
SEPTEMBER 26-27, 2024
QCon San Francisco
NOVEMBER 18-22, 2024

Follow us on

Stay in the know

The InfoQ Podcast

Engineering Culture Podcast

The Software Architects' Newsletter

サイト全般について feedback-jp@infoq.com 記事 editors-jp@infoq.com

InfoQ.com and all content copyright © 2006-2024 C4Media Inc.
InfoQ.com and all content copyright © 2024 SHIFT Inc.
プライバシー

BT