多人数参加型テレビ会議システムにおける発言者拡大映像の作成 A Speaker Zooming Method for Room-to-room TV Conference

この論文にアクセスする

この論文をさがす

著者

抄録

従来のテレビ会議システムは,表示サイズや表示解像度が限られているため「誰が発言者か分かりにくい」または「発言者の表情をとらえにくい」などの問題点があった.著者らは,会議室内の参加者の中から発言者を自動的に検出し,検出した発言者を拡大表示して遠隔地に伝送することが可能なテレビ会議システムを構築することを狙いとして研究を実施している. 本論文では,このような1拠点に10人程度が参加できる1拠点多人数参加型テレビ会議システムを構成するための,マイクロフォンアレイと映像処理を用いた映像表示法について述べる.汎用PCと市販音響機器のみから構成されていることが特徴であり,特殊なハードウェアを使用することなく,通常の会議室環境において10人程度の会議参加者から発言者の方向を検出して拡大表示することが可能である. マイクロフォンアレイからの音声情報をデジタル処理して発言者の位置を特定する手法と,複数の人物を含む映像をデジタル処理して発言者の人物の上半身映像を拡大表示する手法によって実現した.また,紙をめくるノイズが発言と間違われないよう工夫を行った.Due to the limitation of display size or resolution of traditional TV conference systems, we can not see detailed expression on speaker's face shown on a TV screen, or can not even see who is speaking from the remote site. We have been developing a TV conference system where a speaker is automatically identified and his/her face is zoomed in on the TV screen, so that remote participants can better read speaker's facial expression. In this paper, a microphone array and video processing for TV conference systems are described. Our microphone array system is unique because it consists only of one consumer PC, an extra PC sound card, two general cameras, and four omni directional microphones; no other special hardware or special operating system is required. It has a capability that a speaker can be detected out of more than 10 participants in a meeting room. The system expands speaker's upper-body image based-on the speaker's position detected with the microphone array. Then we propose a method to prevent the system from mistaking paper flip-flap noise for voice from a speaker.

Due to the limitation of display size or resolution of traditional TV conference systems, we can not see detailed expression on speaker's face shown on a TV screen, or can not even see who is speaking from the remote site. We have been developing a TV conference system where a speaker is automatically identified and his/her face is zoomed in on the TV screen, so that remote participants can better read speaker's facial expression. In this paper, a microphone array and video processing for TV conference systems are described. Our microphone array system is unique because it consists only of one consumer PC, an extra PC sound card, two general cameras, and four omni directional microphones; no other special hardware or special operating system is required. It has a capability that a speaker can be detected out of more than 10 participants in a meeting room. The system expands speaker's upper-body image based-on the speaker's position detected with the microphone array. Then we propose a method to prevent the system from mistaking paper flip-flap noise for voice from a speaker.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 47(7), 2091-2098, 2006-07-15

    一般社団法人情報処理学会

参考文献:  14件中 1-14件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110004751162
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    8039412
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ