OCR自動補正用分野別辞書の検討

書誌事項

タイトル別名
  • Dictionary Customizing for Error-Correction of the Japanese OCR Outputs

この論文をさがす

抄録

光学式文字読み取り装置OCR(Opticalcharacter Reader)は,いわゆるパターン認識機械の一つであり,印刷された日本語文書を電子化する道具として大変有力である.しかしながら,現段階においてはOCRの文字認識率を100%にまで向上させることは不可能であると言われている.また,OCRの誤りは対象文書の内容とか形式に依存して著しい偏在を示す傾向が指摘されている.そして,文字認識の誤りを補正する後処理の研究が,数多く行なわれている.とくに,伊東と丸山によるDRS[3]は汎用の辞書(115,900語)に加えてユーザ辞書(1000語)を認識実験用に用いた本格的なものであるが,OCR装置のアルゴリズム自身に改良を施そうとするものである.すなわち,認識過程の曖昧性を表現する方法として単語の出現頻度,単語間の遷移確率,認識実験確率および候補生起確率を基にした確信度を導入しているので,この方法は元になるOCRの認識アルゴリズムに依存したものであり,独立した補正法には採用しがたい.本研究では,既存のOCR装置を利用して,その後のオペレータによる補正処理(後処理)を自動化するための辞書を構築する方法について検討する.とくに,対象分野を刑法テキストに限定した場合に,約3%の誤りを含むOCR出力文書に対して補正率を向上させ,過剰な変更を極力押さえる方法を検討した.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ