複数のセンサ情報に基づく話者状況の理解 A Method for Understanding Situation of Speakers Based on Multimodal Sensors

この論文をさがす

著者

抄録

講義を電子的にアーカイブ化するとき、講義中の話者の状況を理解することは講義映像の撮影やインデクシングに有用である。話者の状況は、人物の位置、音源の位置及び身振りの有無などで構成されるので、その推定には様々なセンサを組合せて用いることが不可欠である。そこで本研究では、マイクロホンアレイ、観測カメラ、超音波定位センサを用いて話者の状況を推定する方法について述べる。本手法に基づく推定結果を人手で判断した話者状況と比較した結果、83.0%の割合で正しく話者状況を推定していることが確認できた。

It is useful to understand a situation of a speaker in a lecture for automatic camera control and video indexing in lecture archiving systems. However, it is difficult to understand the situation only by visual sensor because it consists of multimodal features. Therefore, we use multimodal sensors, such as microphone array, observation cameras and ultrasonic position sensor in order to understand multimodal information of a speaker. We propose a method for estimating a situation of a speaker by integrating data from multimodal sensors. The rate of correct estimation of a situation of a speaker was 83.0% by our method in comparison with manual estimation.

収録刊行物

  • 電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎

    電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎 102(737), 25-28, 2003-03-11

    一般社団法人電子情報通信学会

参考文献:  5件中 1-5件 を表示

各種コード

  • NII論文ID(NAID)
    110003270271
  • NII書誌ID(NCID)
    AN10476092
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09135685
  • NDL 記事登録ID
    6555385
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-940
  • データ提供元
    CJP書誌  NDL  NII-ELS 
ページトップへ