検索結果 292件中 1-20 を表示

  • Combining Multiple Acoustic Models in GMM Spaces for Robust Speech Recognition

    KANG Byung Ok , KWON Oh-Wook

    … Even though large vocabulary continuous speech recognition (LVCSR) systems are recently widespread, they often make egregious recognition errors resulting from unavoidable mismatch of speaking styles or environments between the training and real conditions. …

    IEICE Transactions on Information and Systems E99.D(3), 724-730, 2016

    J-STAGE

  • 大語彙連続音声認識と音節N-best音声認識を用いたキーワード検索の高精度化

    長野 徹 , 倉田 岳人 , 鈴木 雅之 , 立花 隆輝 , 西村 雅史

    … Hence, in this paper, we propose a method that not only finds occurrences in the speech data of given search terms, but also gives confidence scores for the found occurrences by combining the recognition results of a word-based Large Vocabulary Continuous Speech Recognition (LVCSR) system and a syllable-based speech recognition system. … The experimental results show that the proposed method reduce 42.1%-76.7% false-positive error by combining LVCSR and the syllable-based speech recognition system. …

    情報処理学会論文誌 56(8), 1646-1656, 2015-08-15

    情報処理学会

  • Discriminative Pronunciation Modeling Using the MPE Criterion

    SONG Meixu , PAN Jielin , ZHAO Qingwei , YAN Yonghong

    … Introducing pronunciation models into decoding has been proven to be benefit to LVCSR. …

    IEICE Transactions on Information and Systems E98.D(3), 717-720, 2015

    J-STAGE

  • 大語彙連続音声認識と音節<i>N</i>-best音声認識を用いたSpoken Term Detectionの高精度化

    長野 徹 , 倉田 岳人 , 鈴木 雅之 , 立花 隆輝 , 西村 雅史

    … Hence, in this paper, we propose a method that not only finds occurrences in the speech data of given search terms, but also gives confidence scores for the found occurrences by combining the recognition results of a word-based Large Vocabulary Continuous Speech Recognition (LVCSR) system and a syllable-based speech recognition system. …

    研究報告音声言語情報処理(SLP) 2014-SLP-102(10), 1-6, 2014-07-17

    情報処理学会

  • 非同期音声収録を用いた遠隔発話音声認識 (音声 音学シンポジウム2014)

    寺岡 俊汰 , 上田 雄磨 , 王 龍標 [他] , 甲斐 充彦 , 福島 拓

    … では,非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域でdenoising autoencoder(DAE)を適用し大語彙連続音声認識(LVCSR)を行う.その後,音声セグメント単位での収録マイクチャンネル(携帯端末)の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAMOコーパスからの発話を複数のスピーカーから発し,それを遠方に設置され …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(52), 153-157, 2014-05-24

  • 非同期音声収録を用いた遠隔発話音声認識

    寺岡 俊汰 , 上田 雄磨 , 王 龍標 , 甲斐 充彦 , 福島 拓

    … 非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域で denoising autoencoder(DAE) を適用し大語彙連続音声認識 (LVCSR) を行う.その後,音声セグメント単位での収録マイクチャンネル (携帯端末) の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAM0 コーパスからの発話を複数のスピーカーから発し,それを遠方 …

    研究報告音楽情報科学(MUS) 2014-MUS-103(32), 1-5, 2014-05-17

    情報処理学会

  • Cross-Lingual Phone Mapping for Large Vocabulary Speech Recognition of Under-Resourced Languages

    DO Van Hai , XIAO Xiong , CHNG Eng Siong , LI Haizhou

    This paper presents a novel acoustic modeling technique of large vocabulary automatic speech recognition for under-resourced languages by leveraging well-trained acoustic models of other languages (ca …

    IEICE Transactions on Information and Systems E97.D(2), 285-295, 2014

    J-STAGE

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (VLSI設計技術)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他]

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(235), 29-34, 2013-10-07

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (集積回路)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他] , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(236), 29-34, 2013-10-07

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (画像工学)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他] , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(237), 29-34, 2013-10-07

  • 3×倍速実時間6万語彙連続音声認識のための40-nm, 54-mW音声認識専用プロセッサ(システムLSIの応用とその要素技術,専用プロセッサ,プロセッサ,DSP,画像処理技術,及び一般)

    何 光霽 , 宮本 優貴 , 松田 薫平 , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告. VLD, VLSI設計技術 113(235), 29-34, 2013-09-30

  • A 168-mW 2.4×-Real-Time 60-k Word Continuous Speech Recognition Processor VLSI

    HE Guangji , SUGAHARA Takanobu , MIYAMOTO Yuki , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    This paper describes a low-power VLSI chip for speaker-independent 60-kWord continuous speech recognition based on a context-dependent Hidden Markov Model (HMM). It features a compression-decoding sch …

    IEICE transactions on electronics 96(4), 444-453, 2013-04-01

    J-STAGE 参考文献16件

  • 音声検索語検出を前処理に用いた未知語や認識誤りに頑健な音声ドキュメント検索

    瀧上智子 , 秋葉 友良

    … To investigate the effectiveness of the proposed method, we conducted the experimental evaluation using the SDR test collection targeting Japanese lecture speech by comparing with the conventional SDR method using LVCSR and text-based document retrieval. …

    情報処理学会論文誌 54(2), 506-517, 2013-02-15

    情報処理学会

  • 話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討 (音声・第14回音声言語シンポジウム)

    今野 和樹 , 大山 拓也 , 加藤 正治 [他] , 小坂 哲夫

    本稿では,話し言葉音声認識の性能向上を目指し,クラスタ数100以上の大規模な話者クラスタリングによる話者クラス音響モデルの検討を行った.この際,1クラスタ当たりの学習データの減少を防ぐため,1人の話者が複数のクラスタに属すことを許すソフトクラスタリングを用いた.認識結果は,話者クラス音響モデルの数だけ得られるため,その中から最終的な認識結果を選択する必要がある.その選択方法として,各話者クラス音響 …

    電子情報通信学会技術研究報告 : 信学技報 112(369), 125-130, 2012-12-20

  • 2.4倍速実時間6万語彙連続音声認識プロセッサの開発 (集積回路)

    宮本 優貴 , 何 光霽 , 和泉 慎太郎 [他] , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.GMM演算時の外部メモリ帯域削減用圧縮デコーダ,VITERBI並列アーキテクチャを実装した.内部SRAM容量を最適化するために,近似GMM演算アルゴリズムの導入,先読みフレーム数の調整を行った.その結果,実時間処理時において従来研究より必要動作周波数を34.2%削減し83.3MHz,消費電力を48.5%削減し7 …

    電子情報通信学会技術研究報告 : 信学技報 112(365), 49-53, 2012-12-17

  • Comparison of Discriminative Models for Lexicon Optimization for ASR of Agglutinative Language

    Mijit Ablimit , Tatsuya Kawahara , Askar Hamdulla

    … Experimental evaluations on Uyghur LVCSR show that SVM and LR are more robustly trained and SVM results in the best performance with a large dimension of features.For automatic speech recognition (ASR) of agglutinative languages, selection of lexical unit is not obvious. … Experimental evaluations on Uyghur LVCSR show that SVM and LR are more robustly trained and SVM results in the best performance with a large dimension of features. …

    研究報告音声言語情報処理(SLP) 2012-SLP-92(13), 1-4, 2012-07-12

    情報処理学会

  • ウエーブレットパケット分解による残響に頑健な音声認識

    ゴメス・ランディ , 河原 達也

    … Experimental evaluations with large vocabulary continuous speech recognition (LVCSR) in real reverberant conditions show that the proposed method outperforms conventional wavelet-based methods and other dereverberation techniques. …

    研究報告音声言語情報処理(SLP) 2012-SLP-92(11), 1-6, 2012-07-12

    情報処理学会

  • Noise Robust Feature Scheme for Automatic Speech Recognition Based on Auditory Perceptual Mechanisms

    CAI Shang , XIAO Yeming , PAN Jielin , ZHAO Qingwei , YAN Yonghong

    … Recognition performances with the standard MFCC, RASTA perceptual linear prediction (RASTA-PLP) and the proposed feature extraction scheme are evaluated on a medium-vocabulary isolated-word recognition task and a more complex large vocabulary continuous speech recognition (LVCSR) task. …

    IEICE transactions on information and systems 95(6), 1610-1618, 2012-06-01

    J-STAGE 参考文献30件

  • Selected Topics from LVCSR Research for Asian Languages at Tokyo Tech

    FURUI Sadaoki

    … This paper presents our recent work in regard to building Large Vocabulary Continuous Speech Recognition (LVCSR) systems for the Thai, Indonesian, and Chinese languages. …

    IEICE transactions on information and systems 95(5), 1182-1194, 2012-05-01

    J-STAGE 参考文献30件

  • 言語的・音響的コンテキストが音声の聴取および認識に及ぼす影響の考察

    榎並大介 , 山本一公 , 北岡教英 , 中川聖一

    LVCSR) は読み上げ音声に関しては十分な性能を持つようになってきており,ディクテーションや字幕放送システムとして実用化されてきている.一方,対話や講演音声など自由発話の認識も期待されているものの,その性能はいまだに十分とはいえない.本稿では,人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実 …

    第74回全国大会講演論文集 2012(1), 617-618, 2012-03-06

    情報処理学会

ページトップへ