複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定

中島大一, 駒谷和範, 佐藤理史

複数人会話では，積極的に会話に参加するユーザの位置や人数をシステムが推定できるのが望ましい．このような推定により，参加ユーザの状況に応じた発話を生成できる．本研究では， 2 体のロボットに搭載されたマイクロフォンとカメラから得られる視聴覚情報を，その時点におけるアクティブユーザの推定に用いる．まず， 2 体のロボットから得られる音源定位結果と顔検出結果を，確率密度関数として表現し，アクティブなユーザの存在する位置の確率分布を得る．それらを入力が得られる度に更新し，積極的に会話に参加するユーザの人数や位置を推定する．音源定位結果と顔検出結果それぞれに基づく推定結果を組み合わせることで，参加ユーザの様々な状況を判定し，それに基づく発話を生成する．評価実験では，ロボットとユーザの実際の会話において得られたデータを用いて，アクティブユーザを推定し，その時のユーザの状況に応じた発話を生成できることを示した．

複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定

Search this article

Abstract

Journal

Details 詳細情報について

Export

Report a problem

複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定

Search this article

Abstract

Journal

Details 詳細情報について

Export

Report a problem

Project list