バイモーダル車内音声認識評価用データベースの構築 Construction of Bimodal Database for Evaluating In-Car Speech Recognition

この論文にアクセスする

この論文をさがす

著者

抄録

近年,現実の雑音環境下の様々なシーンにおいて音声認識率を向上させるために,音声情報と映像情報を統合したバイモーダル音声認識への関心が高まっている.映像情報は音響雑音の影響を受けない情報源として,音声認識において重要な役割を果たすものと考えられる.しかし,大規模バイモーダルデータベースが少ないことなどから,映像情報は実際の音声認識システムにおいて十分に利用されるには至っていない.そこで我々は,これまでに構築されている雑音環境下音声認識評価用共通データベースAURORA-2J/AURORA-3Jの仕様に則り,高品質カラー映像と近赤外映像を付加して収録を行い,新しいデータベースAURORA-2J-AV(室内),AURORA-3J-AV(自動車内)を構築している.本稿ではこれらのデータベースの詳細について述べる.There are remarkable interests on bimodal speech recognition, which integrate audio and visual information, to improve speech recognition rates. Visual information plays a very important role in speech recognition since it is not affected by acoustic noises. However, such kind of information has not been fully used in existing actual speech recognition systems because of the lack of large-scale bimodal databases. Therefore we are building new databases called AURORA-2J-AV(indoor) and AURORA-3J-AV(in-vehicle) that contain aural signals and high quality facial images taken by color and near-infrared cameras. The utterance tasks of these databases are the same as those of our AURORA-2J/AURORA-3J database for evaluating speech recognition method under noisy environments. This paper describes the detailed specification of the databases.

There are remarkable interests on bimodal speech recognition, which integrate audio and visual information, to improve speech recognition rates. Visual information plays a very important role in speech recognition since it is not affected by acoustic noises. However, such kind of information has not been fully used in existing actual speech recognition systems because of the lack of large-scale bimodal databases. Therefore we are building new databases called AURORA-2J-AV(indoor) and AURORA-3J-AV(in-vehicle) that contain aural signals and high quality facial images taken by color and near-infrared cameras. The utterance tasks of these databases are the same as those of our AURORA-2J/AURORA-3J database for evaluating speech recognition method under noisy environments. This paper describes the detailed specification of the databases.

収録刊行物

  • 情報処理学会研究報告音声言語情報処理(SLP)

    情報処理学会研究報告音声言語情報処理(SLP) 2005(12(2004-SLP-055)), 35-40, 2005-02-04

    一般社団法人情報処理学会

参考文献:  11件中 1-11件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110002950636
  • NII書誌ID(NCID)
    AN10442647
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    7278454
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ