談話標識の抽出に基づいた講演音声の自動インデキシング

書誌事項

タイトル別名
  • ダンワ ヒョウシキ ノ チュウシュツ ニ モトヅイタ コウエン オンセイ ノ ジドウ インデキシング
  • Automatic Indexing of Lecture Speech by Extracting Discourse Markers
  • 音声・マルチモーダルインタフェースの実装・評価とその支援

この論文をさがす

抄録

講演音声において話題(セクション)の転換点で用いられる特徴的な単語(談話標識)を用いて,自動インデキシングを行う方法を提案する.本研究では,種々の講演の中でも流れが比較的明確で共通性のある学会講演を対象とする.学習データの講演の書き起こしからポーズ情報を用いてセクション境界候補を検出し,統計的言語モデルを用いて句点を挿入して,各セクションの先頭の1文を抽出する.その中に含まれる名詞から単語頻度と文頻度に基づいて談話標識を選定する.これらの過程は人手によるタグを必要としない教師なし学習により行われる.評価データの各文について談話標識の単語頻度と文頻度の統計量に基づく評価値を計算し,その合計が閾値以上であればインデックスを付与する.実際の講演音声の書き起こしと音声認識結果に対して評価を行った結果,再現率85%程度(適合率は20%程度)の精度でインデキシングできることを示す.

We address a method of automatic indexing for lecture speech using suggestive words that frequently appear in the initial sentences of sections,and we define such words as discourse markers.We deal with academic presentations because these presentations can be segmented into relatively distinct parts.At first,we segment transcriptions into sections with average duration of pauses in the lecture as a threshold.Next,each section is segmented into sentences by using a statistical language model.Then,discourse markers are selected from nouns based on term frequency and sentence frequency statistics.We evaluated these discourse markers with recall and precision rates on indexing task of lecture speech.Sentences are indexed if the sum of the term frequency and sentence frequency statistics of detected discourse markers exceeds a threshold.As a result, we achieved a recall rate of 85% with precision of 20%.

収録刊行物

被引用文献 (7)*注記

もっと見る

参考文献 (18)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ