Read/Search this Article
Abstract
電子図書館や文献検索において引用関係などに基づいて文献相互のリンクを形成することは,情報検索やナビゲーションを行う上で重要である.本論文では,電子化される以前の文献も含めた相互リンクを実現するために,文書画像解析の結果得られた引用文献文字列から書誌要素を抽出する方法を提案する.提案手法では,引用文献文字列の構文構造とOCRの認識誤りを扱うために,隠れマルコフモデルを拡張した統計モデルを用いる.ルールベースのシステムでは,ルールの獲得が大きな問題となるが,提案手法では,訓練データを用いた統計モデルのパラメータ推定アルゴリズムによってモデルを低コストで獲得できる.本論文では,OCRによって得られた引用文献文字列と大規模書誌データベースを用いて,提案手法の評価を行い,90%程度の精度で書誌要素を抽出できることを示す.更に,書誌要素の抽出に失敗した場合でも,引用文献文字列中の書誌要素のおおよその位置を特定できることを示し,文献の相互リンクのための書誌マッチングにおいて,高い精度で書誌要素を抽出できることを実験的に示す.
Journal
- The transactions of the Institute of Electronics, Information and Communication Engineers. D-II [List of Volumes]
-
The transactions of the Institute of Electronics, Information and Communication Engineers. D-II J87_D_II(6), 1298-1308, 2004-06-01 [Table of Contents]
The Institute of Electronics, Information and Communication Engineers