Search Results 1-20 of 292

  • Combining Multiple Acoustic Models in GMM Spaces for Robust Speech Recognition

    KANG Byung Ok , KWON Oh-Wook

    … Even though large vocabulary continuous speech recognition (LVCSR) systems are recently widespread, they often make egregious recognition errors resulting from unavoidable mismatch of speaking styles or environments between the training and real conditions. …

    IEICE Transactions on Information and Systems E99.D(3), 724-730, 2016

    J-STAGE

  • Improvement of Spoken Term Detection by Combining LVCSR and Syllable-based N-best Speech Recognition Results  [in Japanese]

    長野 徹 , 倉田 岳人 , 鈴木 雅之 , 立花 隆輝 , 西村 雅史

    … Hence, in this paper, we propose a method that not only finds occurrences in the speech data of given search terms, but also gives confidence scores for the found occurrences by combining the recognition results of a word-based Large Vocabulary Continuous Speech Recognition (LVCSR) system and a syllable-based speech recognition system. … The experimental results show that the proposed method reduce 42.1%-76.7% false-positive error by combining LVCSR and the syllable-based speech recognition system. …

    情報処理学会論文誌 56(8), 1646-1656, 2015-08-15

    IPSJ

  • Discriminative Pronunciation Modeling Using the MPE Criterion

    SONG Meixu , PAN Jielin , ZHAO Qingwei , YAN Yonghong

    … Introducing pronunciation models into decoding has been proven to be benefit to LVCSR. …

    IEICE Transactions on Information and Systems E98.D(3), 717-720, 2015

    J-STAGE

  • Improvement of Spoken Term Detection by Combining LVCSR and Syllable-based N-best Speech Recognition Results  [in Japanese]

    Tohru Nagano , Gakuto Kurata , Masayuki Suzuki , Ryuki Tachibana , Masafumi Nishimura

    … Hence, in this paper, we propose a method that not only finds occurrences in the speech data of given search terms, but also gives confidence scores for the found occurrences by combining the recognition results of a word-based Large Vocabulary Continuous Speech Recognition (LVCSR) system and a syllable-based speech recognition system. …

    IPSJ SIG Notes 2014-SLP-102(10), 1-6, 2014-07-17

    IPSJ

  • Distant-talking Speech Recognition with Asynchronous Speech Recording  [in Japanese]

    TERAOKA Shunta , UEDA Yuma , WANG Longbiao , KAI Atsuhiko , FUKUSHIMA Taku

    … では,非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域でdenoising autoencoder(DAE)を適用し大語彙連続音声認識(LVCSR)を行う.その後,音声セグメント単位での収録マイクチャンネル(携帯端末)の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAMOコーパスからの発話を複数のスピーカーから発し,それを遠方に設置され …

    IEICE technical report. Speech 114(52), 153-157, 2014-05-24

  • Distant-talking Speech Recognition with Asynchronous Speech Recording  [in Japanese]

    寺岡 俊汰 , 上田 雄磨 , 王 龍標 , 甲斐 充彦 , 福島 拓

    … 非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域で denoising autoencoder(DAE) を適用し大語彙連続音声認識 (LVCSR) を行う.その後,音声セグメント単位での収録マイクチャンネル (携帯端末) の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAM0 コーパスからの発話を複数のスピーカーから発し,それを遠方 …

    研究報告音楽情報科学(MUS) 2014-MUS-103(32), 1-5, 2014-05-17

    IPSJ

  • Cross-Lingual Phone Mapping for Large Vocabulary Speech Recognition of Under-Resourced Languages

    DO Van Hai , XIAO Xiong , CHNG Eng Siong , LI Haizhou

    This paper presents a novel acoustic modeling technique of large vocabulary automatic speech recognition for under-resourced languages by leveraging well-trained acoustic models of other languages (ca …

    IEICE Transactions on Information and Systems E97.D(2), 285-295, 2014

    J-STAGE

  • A 2.4x-Real-Time VLSI Processor for 60-kWord Continuous Speech Recognition  [in Japanese]

    何 光霽 , 宮本 優貴 , 松田 薫平 [他]

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(235), 29-34, 2013-10-07

  • A 2.4x-Real-Time VLSI Processor for 60-kWord Continuous Speech Recognition  [in Japanese]

    HE Guangji , MIYAMOTO Yuki , 松田 薫平 [他] , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    Technical report of IEICE. ICD 113(236), 29-34, 2013-10-07

  • A 2.4x-Real-Time VLSI Processor for 60-kWord Continuous Speech Recognition  [in Japanese]

    HE Guangji , MIYAMOTO Yuki , MATSUDA Kumpei , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    IEICE technical report. Image engineering 113(237), 29-34, 2013-10-07

  • A 2.4x-Real-Time VLSI Processor for 60-kWord Continuous Speech Recognition  [in Japanese]

    HE Guangji , MIYAMOTO Yuki , 松田 薫平 , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    Technical report of IEICE. VLD 113(235), 29-34, 2013-09-30

  • A 168-mW 2.4×-Real-Time 60-k Word Continuous Speech Recognition Processor VLSI

    HE Guangji , SUGAHARA Takanobu , MIYAMOTO Yuki , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    This paper describes a low-power VLSI chip for speaker-independent 60-kWord continuous speech recognition based on a context-dependent Hidden Markov Model (HMM). It features a compression-decoding sch …

    IEICE Transactions on Electronics 96(4), 444-453, 2013-04-01

    J-STAGE References (16)

  • Front-ending Spoken Document Retrieval with Spoken Term Detection Robust for OOV and Missrecognized Words  [in Japanese]

    瀧上智子 , 秋葉 友良

    … To investigate the effectiveness of the proposed method, we conducted the experimental evaluation using the SDR test collection targeting Japanese lecture speech by comparing with the conventional SDR method using LVCSR and text-based document retrieval. …

    情報処理学会論文誌 54(2), 506-517, 2013-02-15

    IPSJ

  • An Investigation of Clustering Methods using Speaker-Class Models in Lecture Speech Recognition  [in Japanese]

    今野 和樹 , 大山 拓也 , 加藤 正治 [他] , 小坂 哲夫

    本稿では,話し言葉音声認識の性能向上を目指し,クラスタ数100以上の大規模な話者クラスタリングによる話者クラス音響モデルの検討を行った.この際,1クラスタ当たりの学習データの減少を防ぐため,1人の話者が複数のクラスタに属すことを許すソフトクラスタリングを用いた.認識結果は,話者クラス音響モデルの数だけ得られるため,その中から最終的な認識結果を選択する必要がある.その選択方法として,各話者クラス音響 …

    IEICE technical report. Speech 112(369), 125-130, 2012-12-20

  • A 2.4x-Real-Time VLSI Processor for 60-k Word Continuous Speech Recognition  [in Japanese]

    MIYAMOTO Yuuki , HE Guangji , IZUMI Shintaro , KAWAGUCHI Hiroshi , YOSHIMOTO Masahiko

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.GMM演算時の外部メモリ帯域削減用圧縮デコーダ,VITERBI並列アーキテクチャを実装した.内部SRAM容量を最適化するために,近似GMM演算アルゴリズムの導入,先読みフレーム数の調整を行った.その結果,実時間処理時において従来研究より必要動作周波数を34.2%削減し83.3MHz,消費電力を48.5%削減し7 …

    Technical report of IEICE. ICD 112(365), 49-53, 2012-12-17

  • Comparison of Discriminative Models for Lexicon Optimization for ASR of Agglutinative Language

    Mijit Ablimit , Tatsuya Kawahara , Askar Hamdulla

    … Experimental evaluations on Uyghur LVCSR show that SVM and LR are more robustly trained and SVM results in the best performance with a large dimension of features.For automatic speech recognition (ASR) of agglutinative languages, selection of lexical unit is not obvious. … Experimental evaluations on Uyghur LVCSR show that SVM and LR are more robustly trained and SVM results in the best performance with a large dimension of features. …

    研究報告音声言語情報処理(SLP) 2012-SLP-92(13), 1-4, 2012-07-12

    IPSJ

  • Wavelet Packet Decomposition Approach to Reverberant Speech Recognition

    ゴメス・ランディ , 河原 達也

    … Experimental evaluations with large vocabulary continuous speech recognition (LVCSR) in real reverberant conditions show that the proposed method outperforms conventional wavelet-based methods and other dereverberation techniques. …

    研究報告音声言語情報処理(SLP) 2012-SLP-92(11), 1-6, 2012-07-12

    IPSJ

  • Noise Robust Feature Scheme for Automatic Speech Recognition Based on Auditory Perceptual Mechanisms

    CAI Shang , XIAO Yeming , PAN Jielin , ZHAO Qingwei , YAN Yonghong

    … Recognition performances with the standard MFCC, RASTA perceptual linear prediction (RASTA-PLP) and the proposed feature extraction scheme are evaluated on a medium-vocabulary isolated-word recognition task and a more complex large vocabulary continuous speech recognition (LVCSR) task. …

    IEICE Transactions on Information and Systems 95(6), 1610-1618, 2012-06-01

    J-STAGE References (30)

  • Selected Topics from LVCSR Research for Asian Languages at Tokyo Tech

    FURUI Sadaoki

    … This paper presents our recent work in regard to building Large Vocabulary Continuous Speech Recognition (LVCSR) systems for the Thai, Indonesian, and Chinese languages. …

    IEICE Transactions on Information and Systems 95(5), 1182-1194, 2012-05-01

    J-STAGE References (30)

  • 言語的・音響的コンテキストが音声の聴取および認識に及ぼす影響の考察  [in Japanese]

    榎並大介 , 山本一公 , 北岡教英 , 中川聖一

    LVCSR) は読み上げ音声に関しては十分な性能を持つようになってきており,ディクテーションや字幕放送システムとして実用化されてきている.一方,対話や講演音声など自由発話の認識も期待されているものの,その性能はいまだに十分とはいえない.本稿では,人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実 …

    第74回全国大会講演論文集 2012(1), 617-618, 2012-03-06

    IPSJ

Page Top