両方向 N-gram 確率を用いた誤り文字検出法  [in Japanese] Detection of Wrong Characters by Probability Transitional Patterns of Two-Directional N-gram Probabilities  [in Japanese]

Search this Article

Author(s)

    • 河田 岳大 KAWATA Takehiro
    • 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 Graduate School of Information Science and Technology, Hokkaido University
    • 工藤 峰一 KUDO Mineichi
    • 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 Graduate School of Information Science and Technology, Hokkaido University
    • 外山 淳 [他] TOYAMA Jun
    • 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 Graduate School of Information Science and Technology, Hokkaido University
    • 中村 篤祥 NAKAMURA Atsuyoshi
    • 北海道大学大学院情報科学研究科コンピュータサイエンス専攻 Graduate School of Information Science and Technology, Hokkaido University

Abstract

OCRなどを通して得られる日本語文の認識結果において, N-gram確率を利用した高速な誤認識文字検出法を提案する.日本語のように単語が分かち書きされず大規模な語彙を対象とした場合, 誤り個所の指摘に文字N-gramは有効な方法である.本論文ではまず, 通常のN-gram確率の拡張として両方向N-gram確率を提案し, その有効性を情報量の点から考察する.次に, 両方向N-gram確率と文脈確率を用いて1文字の誤字を検出する方法を提案する.シミュレーション実験では, 適合率80%において従来法よりも10%以上高い約75%の再現率を達成できた.また, 誤り範囲の指摘という点では, 適合率80%で再現率90%が達成された.

Journal

  • The IEICE transactions on information and systems Pt. 2

    The IEICE transactions on information and systems Pt. 2 88(3), 629-635, 2005-03-01

    The Institute of Electronics, Information and Communication Engineers

References:  14

Codes

  • NII Article ID (NAID)
    110003203211
  • NII NACSIS-CAT ID (NCID)
    AA11340957
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09151923
  • NDL Article ID
    7272319
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-1853
  • Data Source
    CJP  NDL  NII-ELS 
Page Top