OCR自動補正用分野別辞書の検討

江澤, 義典, 嶋岡, 和章

光学式文字読み取り装置OCR(Opticalcharacter Reader)は,いわゆるパターン認識機械の一つであり,印刷された日本語文書を電子化する道具として大変有力である.しかしながら,現段階においてはOCRの文字認識率を100%にまで向上させることは不可能であると言われている.また,OCRの誤りは対象文書の内容とか形式に依存して著しい偏在を示す傾向が指摘されている.そして,文字認識の誤りを補正する後処理の研究が,数多く行なわれている.とくに,伊東と丸山によるDRS[3]は汎用の辞書(115,900語)に加えてユーザ辞書(1000語)を認識実験用に用いた本格的なものであるが,OCR装置のアルゴリズム自身に改良を施そうとするものである.すなわち,認識過程の曖昧性を表現する方法として単語の出現頻度,単語間の遷移確率,認識実験確率および候補生起確率を基にした確信度を導入しているので,この方法は元になるOCRの認識アルゴリズムに依存したものであり,独立した補正法には採用しがたい.本研究では,既存のOCR装置を利用して,その後のオペレータによる補正処理(後処理)を自動化するための辞書を構築する方法について検討する.とくに,対象分野を刑法テキストに限定した場合に,約3%の誤りを含むOCR出力文書に対して補正率を向上させ,過剰な変更を極力押さえる方法を検討した.

OCR自動補正用分野別辞書の検討

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

OCR自動補正用分野別辞書の検討

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について