複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定

Search this article

Abstract

複数人会話では,積極的に会話に参加するユーザの位置や人数をシステムが推定できるのが望ましい.このような推定により,参加ユーザの状況に応じた発話を生成できる.本研究では, 2 体のロボットに搭載されたマイクロフォンとカメラから得られる視聴覚情報を,その時点におけるアクティブユーザの推定に用いる.まず, 2 体のロボットから得られる音源定位結果と顔検出結果を,確率密度関数として表現し,アクティブなユーザの存在する位置の確率分布を得る.それらを入力が得られる度に更新し,積極的に会話に参加するユーザの人数や位置を推定する.音源定位結果と顔検出結果それぞれに基づく推定結果を組み合わせることで,参加ユーザの様々な状況を判定し,それに基づく発話を生成する.評価実験では,ロボットとユーザの実際の会話において得られたデータを用いて,アクティブユーザを推定し,その時のユーザの状況に応じた発話を生成できることを示した.

Journal

Details 詳細情報について

  • CRID
    1572543027712668544
  • NII Article ID
    110009526843
  • NII Book ID
    AN10442647
  • Text Lang
    ja
  • Data Source
    • CiNii Articles

Report a problem

Back to top