複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定
Search this article
Abstract
複数人会話では,積極的に会話に参加するユーザの位置や人数をシステムが推定できるのが望ましい.このような推定により,参加ユーザの状況に応じた発話を生成できる.本研究では, 2 体のロボットに搭載されたマイクロフォンとカメラから得られる視聴覚情報を,その時点におけるアクティブユーザの推定に用いる.まず, 2 体のロボットから得られる音源定位結果と顔検出結果を,確率密度関数として表現し,アクティブなユーザの存在する位置の確率分布を得る.それらを入力が得られる度に更新し,積極的に会話に参加するユーザの人数や位置を推定する.音源定位結果と顔検出結果それぞれに基づく推定結果を組み合わせることで,参加ユーザの様々な状況を判定し,それに基づく発話を生成する.評価実験では,ロボットとユーザの実際の会話において得られたデータを用いて,アクティブユーザを推定し,その時のユーザの状況に応じた発話を生成できることを示した.
Journal
-
- 研究報告音声言語情報処理(SLP)
-
研究報告音声言語情報処理(SLP) 2013 (20), 1-8, 2013-01-25
- Tweet
Details 詳細情報について
-
- CRID
- 1572543027712668544
-
- NII Article ID
- 110009526843
-
- NII Book ID
- AN10442647
-
- Text Lang
- ja
-
- Data Source
-
- CiNii Articles