OCR自動補正用分野別辞書の検討
書誌事項
- タイトル別名
-
- Dictionary Customizing for Error-Correction of the Japanese OCR Outputs
この論文をさがす
抄録
光学式文字読み取り装置OCR(Opticalcharacter Reader)は,いわゆるパターン認識機械の一つであり,印刷された日本語文書を電子化する道具として大変有力である.しかしながら,現段階においてはOCRの文字認識率を100%にまで向上させることは不可能であると言われている.また,OCRの誤りは対象文書の内容とか形式に依存して著しい偏在を示す傾向が指摘されている.そして,文字認識の誤りを補正する後処理の研究が,数多く行なわれている.とくに,伊東と丸山によるDRS[3]は汎用の辞書(115,900語)に加えてユーザ辞書(1000語)を認識実験用に用いた本格的なものであるが,OCR装置のアルゴリズム自身に改良を施そうとするものである.すなわち,認識過程の曖昧性を表現する方法として単語の出現頻度,単語間の遷移確率,認識実験確率および候補生起確率を基にした確信度を導入しているので,この方法は元になるOCRの認識アルゴリズムに依存したものであり,独立した補正法には採用しがたい.本研究では,既存のOCR装置を利用して,その後のオペレータによる補正処理(後処理)を自動化するための辞書を構築する方法について検討する.とくに,対象分野を刑法テキストに限定した場合に,約3%の誤りを含むOCR出力文書に対して補正率を向上させ,過剰な変更を極力押さえる方法を検討した.
収録刊行物
-
- 全国大会講演論文集
-
全国大会講演論文集 第47回 (人工知能及び認知科学), 103-104, 1993-09-27
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050011097158368256
-
- NII論文ID
- 110002884578
-
- NII書誌ID
- AN00349328
-
- Web Site
- http://id.nii.ac.jp/1001/00124415/
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB
- CiNii Articles