検索結果 424件中 1-20 を表示

  • 地域情報の音声認識のための固有名詞省略表現の自動生成 (音声)

    志賀 健太 , 能勢 隆 , 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115(184), 7-12, 2015-08-21

  • 大語彙連続音声認識と音節N-best音声認識を用いたキーワード検索の高精度化

    長野 徹 , 倉田 岳人 , 鈴木 雅之 , 立花 隆輝 , 西村 雅史

    … のコールセンターでは,音声通話に含まれる特定のキーワードを含む発言をチェックするコールモニタリング業務によりコールセンターの品質向上を図っている.一方,一部のコールセンターでは,大語彙連続音声認識技術の利用により日々大量に蓄積される音声データに対するキーワード検索が可能となってきた.このような現場では,検索キーワードや業務内容に応じて,「再現率を重視したい」,「適合率を重 …

    情報処理学会論文誌 56(8), 1646-1656, 2015-08-15

    情報処理学会

  • システム統合を目的とした識別学習の一般的枠組み (音声)

    太刀岡 勇気 , 渡部 晋治 , ルルー ジョナトン [他] , ハーシー ジョン

    … づくシステム統合手法で実現することは困難であるが,我々は,系列の識別学習の基準の範囲内で,これらのバランスを調整できる新しい目的関数を提案する.さらに,提案法とブースティング手法の関連についても述べる.高騒音下の中程度語彙の音声認識タスク(第2回CHiMEチャレンジ(トラック2))および大語彙連続音声認識タスク(日本語話し言葉コーパス)において,提案法の従来のシステム統合手法に対する有効性が示された. …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(151), 13-18, 2014-07-24

  • 日本語話し言葉音声認識における複数言語モデリング技術併用時の性能調査 (音声)

    増村 亮 , 浅見 太一 , 大庭 隆伸 [他] , 政瀧 浩和 , 阪内 澄宇

    大語彙連続音声認識の枠組みで必要不可欠とされている言語モデルには,長らくブレークスルーがないというのが現状であろう.実用的な言語モデルとして広く利用されているn-gramモデルには,"モデル制約の局所性","モデルのタスク依存性","データスパースネス"といった問題があることは明白であるが,これらの問題を個々に解決するだけでは大幅な性能改善を得るに至っていない.この現状に対して我々は,大幅な性能改善 …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(151), 1-6, 2014-07-24

  • 大語彙連続音声認識と音節<i>N</i>-best音声認識を用いたSpoken Term Detectionの高精度化

    長野 徹 , 倉田 岳人 , 鈴木 雅之 , 立花 隆輝 , 西村 雅史

    … 企業のコールセンターでは,音声通話に含まれる特定のキーワードをチェックするコールモニタリング業務によりコールセンターの品質向上を図っている.一部のコールセンターでは,大語彙連続音声認識技術の利用により日々大量に蓄積される音声データに対するキーワード検索が可能となってきた.ここでは,検索キーワードや業務内容に応じて,再現率を重視したい,適合率を重視したいといった要望がある.本 …

    研究報告音声言語情報処理(SLP) 2014-SLP-102(10), 1-6, 2014-07-17

    情報処理学会

  • 非同期音声収録を用いた遠隔発話音声認識 (音声 音学シンポジウム2014)

    寺岡 俊汰 , 上田 雄磨 , 王 龍標 [他] , 甲斐 充彦 , 福島 拓

    … ない.本研究では,非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域でdenoising autoencoder(DAE)を適用し大語彙連続音声認識(LVCSR)を行う.その後,音声セグメント単位での収録マイクチャンネル(携帯端末)の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAMOコーパスからの発話を複数のスピーカーから発し,それを遠 …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(52), 153-157, 2014-05-24

  • 非同期音声収録を用いた遠隔発話音声認識

    寺岡 俊汰 , 上田 雄磨 , 王 龍標 , 甲斐 充彦 , 福島 拓

    … 本研究では,非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域で denoising autoencoder(DAE) を適用し大語彙連続音声認識 (LVCSR) を行う.その後,音声セグメント単位での収録マイクチャンネル (携帯端末) の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAM0 コーパスからの発話を複数のスピーカーから発し …

    研究報告音楽情報科学(MUS) 2014-MUS-103(32), 1-5, 2014-05-17

    情報処理学会

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (VLSI設計技術)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他]

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(235), 29-34, 2013-10-07

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (集積回路)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他] , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(236), 29-34, 2013-10-07

  • 3×倍速実時間6万語彙連続音声認識のための40-nm,54-mW音声認識専用プロセッサ (画像工学)

    何 光霽 , 宮本 優貴 , 松田 薫平 [他] , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(237), 29-34, 2013-10-07

  • オープンソース音声認識エンジンJuliusへのベイズリスク最小化機能の実装と評価 (システム開発論文特集)

    南條 浩輝 , 古谷 遼 , 西田 昌史

    重要な語に着目し,その誤りの最小化を行う汎用音声認識エンジンを実現したので,その実装と評価について述べる.我々はこれまでに,各語の重要度を考慮した誤り率「重みつき単語誤り率(Weighted Word Error Rate: WWER)」を,ベイズリスク最小化(Minimum Bayes-Risk: MBR)に基づいて行う音声認識の方式(MBR音声認識)の効果を確認している.しかし,これを実現する …

    電子情報通信学会論文誌. D, 情報・システム 96(10), 2530-2539, 2013-10

  • 3×倍速実時間6万語彙連続音声認識のための40-nm, 54-mW音声認識専用プロセッサ(システムLSIの応用とその要素技術,専用プロセッサ,プロセッサ,DSP,画像処理技術,及び一般)

    何 光霽 , 宮本 優貴 , 松田 薫平 , 和泉 慎太郎 , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.高速,高精度,低消費電力で6万語彙連続音声認識を実現するために,以前試作した音声認識プロセッサの提案手法を用いた上で,高並列な8-pass Viterbi遷移アーキテクチャを実装することで,全体処理速度のネックとなっているViterbi部分をさらに高速化させた.また,探索処理において第2パスにtri-gramを …

    電子情報通信学会技術研究報告. VLD, VLSI設計技術 113(235), 29-34, 2013-09-30

  • Denoising Autoencoderを用いた残響下大語彙音声認識の検討

    小宮山大樹 , 石井敬章 , 篠崎隆宏 , 堀内靖雄 , 黒岩眞吾

    … に必要なサブ音素レベルでの時間分解能を維持しながら時定数の大きな残響の影響をより正しく捕らえることを目的として,長さの異なる 2 つの分析窓長を併用する拡張手法を提案する.実験では,CENSREC-4 を用いた数字音声認識により提案法が従来手法よりも効果的であることを示す.さらに,JNAS を用いた音声認識を行い,提案法が大語彙連続音声認識においても耐残響フロントエンドとして有効であることを示す. …

    研究報告音声言語情報処理(SLP) 2013-SLP-97(1), 1-6, 2013-07-18

    情報処理学会

  • 生成型アプローチによるLatent Words Language ModelのN-gram近似

    増村亮 , 政瀧浩和 , 大庭隆伸 , 吉岡理 , 高橋敏

    … 今日の大語彙連続音声認識において,デコーディングとの相性から,N-gram モデルが最も実用的な言語モデルとして利用されている.N-gram モデルは,膨大なモデルパラメータに起因するデータスパースネスの問題を持つことが知られており,この問題を解決するために,スムージングや次元削減に基づく様々なアプローチが検討されてきた.これに対して我々は,学習データ自体を新たに生成し,生成したデータに基づ …

    研究報告音声言語情報処理(SLP) 2013-SLP-97(5), 1-8, 2013-07-18

    情報処理学会

  • Denoising Autoencoderを用いた残響下大語彙音声認識の検討

    小宮山大樹 , 石井敬章 , 篠崎隆宏 , 堀内靖雄 , 黒岩眞吾

    … ,音声認識に必要なサブ音素レベルでの時間分解能を維持しながら時定数の大きな残響の影響をより正しく捕らえることを目的として,長さの異なる 2 つの分析窓長を併用する拡張手法を提案する.実験では,CENSREC-4 を用いた数字音声認識により提案法が従来手法よりも効果的であることを示す.さらに,JNAS を用いた音声認識を行い,提案法が大語彙連続音声認識においても耐残響フロントエンドとして有効であることを示す. …

    情報処理学会研究報告. SLP, 音声言語情報処理 2013-SLP-97(1), 1-6, 2013-07-18

    情報処理学会

  • 二項事後分布の継承とW-B平滑化に基づく音声認識のための言語モデル(学生ポスターセッション,音声アプリケーション,一般)

    吉田 正太郎 , 川端 豪

    … 本報告では、平滑化特性の異なるW-B法と二項事後分布の継承に基づく手法を併用し、大語彙連続音声認識のための言語モデルを改良する。 …

    電子情報通信学会技術研究報告. SP, 音声 112(450), 19-20, 2013-02-21

  • 音声検索語検出を前処理に用いた未知語や認識誤りに頑健な音声ドキュメント検索

    瀧上智子 , 秋葉 友良

    … し,次にこの出現情報を用いて各文書とクエリとの関連度を計算し,文書検索を行う.提案手法の有効性を調べるために,講演音声を対象とした音声ドキュメント検索テストコレクションを用いて,大語彙連続音声認識結果に対してそのままテキストベースの検索手法を適用する従来法との比較実験を行った.提案法は,クエリに未知語が含まれる場合でも,検索性能を落とすことなく頑健に検索できることが分かっ …

    情報処理学会論文誌 54(2), 506-517, 2013-02-15

    情報処理学会

  • 話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討 (音声・第14回音声言語シンポジウム)

    今野 和樹 , 大山 拓也 , 加藤 正治 [他] , 小坂 哲夫

    本稿では,話し言葉音声認識の性能向上を目指し,クラスタ数100以上の大規模な話者クラスタリングによる話者クラス音響モデルの検討を行った.この際,1クラスタ当たりの学習データの減少を防ぐため,1人の話者が複数のクラスタに属すことを許すソフトクラスタリングを用いた.認識結果は,話者クラス音響モデルの数だけ得られるため,その中から最終的な認識結果を選択する必要がある.その選択方法として,各話者クラス音響 …

    電子情報通信学会技術研究報告 : 信学技報 112(369), 125-130, 2012-12-20

  • 2.4倍速実時間6万語彙連続音声認識プロセッサの開発 (集積回路)

    宮本 優貴 , 何 光霽 , 和泉 慎太郎 [他] , 川口 博 , 吉本 雅彦

    本稿では,6万語彙の実時間連続音声認識のための低消費電力VLSIチップについて説明する.GMM演算時の外部メモリ帯域削減用圧縮デコーダ,VITERBI並列アーキテクチャを実装した.内部SRAM容量を最適化するために,近似GMM演算アルゴリズムの導入,先読みフレーム数の調整を行った.その結果,実時間処理時において従来研究より必要動作周波数を34.2%削減し83.3MHz,消費電力を48.5%削減し7 …

    電子情報通信学会技術研究報告 : 信学技報 112(365), 49-53, 2012-12-17

  • 音声データの隠れ属性を利用した異種音響モデル群の構築

    福田 隆 , 立花 隆輝 , 西村 雅史 , Upendra Chaudhari , Bhuvana Ramabhadran , Puming Zhan

    … 目的関数を用いて音声データクラスタの独立性を評価する.その後,生成されたデータクラスタ毎に音響モデルを構築し, n-best ROVER によるシステム統合を行う.提案手法は音声検索タスクに特化した大語彙連続音声認識で,単一モデルの音声認識システムと比較して相対的に 4% の性能改善を達成した.One of the objectives in acoustic modeling is to realize robust statistical models against the wide variety of acoustic conditions that are present in real …

    研究報告音声言語情報処理(SLP) 2012-SLP-93(3), 1-7, 2012-10-19

    情報処理学会

ページトップへ