InfoQ ホームページ transcripts に関するすべてのコンテンツ
ニュース
RSSフィード-
OpenAIが文字起こしと音声合成用の新音声モデルを発表
OpenAIはAPIにおいて、文字起こしの精度向上とAI生成音声の制御性向上にフォーカスした新しい音声認識と音声合成モデルを導入した。これらのアップデートは自動音声アプリケーションを強化し、さまざまな環境やユースケースにさらに適応できるようにすることを目的としている。
-
Meta社がNotebookLlamaをリリース:オープンソースのPDFからPodcastへのツールキット
Meta社は、PDF文書をポッドキャストに変換するために設計されたオープンソースのツールキットである、NotebookLlamaをリリースした。これにより、開発者は構造化されたアクセス可能な PDF からオーディオへのワークフローを利用できるようになる。GoogleのNotebookLMのオープンソースの代替として、NotebookLlamaは、大規模言語モデル(LLM)やオーディオ処理の経験がなくても、PDF文書を音声コンテンツに変換する4段階のプロセスを通してユーザーをガイドする。このツールキットは、ユーザーがLLMやTTSモデルを試して、会話や音声に対応したコンテンツを作成するための実用的な方法を提供する。