音声認識と話者認識を統合した話者の人名付与システム

書誌事項

タイトル別名
  • オンセイ ニンシキ ト ワシャ ニンシキ オ トウゴウ シタ ワシャ ノ ジンメイ フヨ システム
  • Speaker Name Indexing System by Integrating SpeechRecognition and Speaker Recognition
  • 話者認識とその応用

この論文をさがす

抄録

本研究では,「クリントン大統領が,情報スーパーハイウェイについて話しているシーンを見たい」といった,特定の話者がある話題について話しているシーンの検索を目指している.このような話者と発話内容を同時検索するには,話者の交替を検出し,発話区間に対して話者の名前を付与し,重要語を検出する必要がある.そこで,本研究では,まず話者セグメンテーションにより話者の交替を検出し,話者モデルを自動構築する.次に,大語彙連続音声認識とワードスポッティングにより,ニュース音声中から人名および話者の交替を促すフレーズ(キーフレーズ)を抽出する.抽出された人名およびキーフレーズを利用して,自動構築された話者モデルに話者の名前を付与する.この人名インデキシングと,大語彙連続音声認識による重要語検出により,話者と発話内容を同時検索することが可能となる.

The purpose of this study is to retrieve a video clipwhere a specific speaker talks about some topics, for example,``I would like to watch a video clip where President Clinton talksabout information super highway''. In order to retrieve the speakername and the spoken contents simultaneously, it is required to detectspeaker changes, index the speaker name to the obtained speakersection and extract important words. In this study, the speakerchanges are detected by performing the speaker segmentation anda speaker model is automatically constructed. A phrase suggestingthe speaker change as well as the speaker name in a news speech datais extracted by large vocabulary continuous speech recognition andword spotting technique. Thus, the extracted speaker names areautomatically indexed to the speaker section obtained by thespeaker segmentation. Therefore, we can simultaneously retrieve thespeaker name and the spoken contents based on the speaker nameindexing and the important words extracted by the large vocabularycontinuous speech recognition.

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (19)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ