多人数会話における視線情報を用いた話者区間検出

  • 井上昂治
    京都大学大学院情報学研究科
  • 若林佑幸
    京都大学学術情報メディアセンター
  • 吉本廣雅
    京都大学学術情報メディアセンター
  • 河原達也
    京都大学大学院情報学研究科|京都大学学術情報メディアセンター

この論文をさがす

抄録

多人数会話において視線情報を用いた話者区間検出手法を提案する.実世界の多人数会話では,マイクから離れた位置での発話や周囲の騒音などにより,話者区間検出精度が低下する.一方,会話参与者の視線情報は,これらの音響的影響を受けない.また,視線配布は会話の発話権取得に重要な役割を担っているため,発話の予測にも有用であると考えられる.提案手法は,音響と視線の情報を確率的に統合するもので,3 種類のモデル化を行う.実際に収録したポスター会話を用いた評価実験において,提案手法により,音響情報のみを用いたモデルに比べて,話者区間検出精度が向上した.

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1572824502710881792
  • NII論文ID
    110009806675
  • NII書誌ID
    AN10442647
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ