テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出  [in Japanese] Bibliographic Attribute Extraction from References Based on Text Recognition Error Model  [in Japanese]

Search this Article

Author(s)

    • 高須 淳宏 TAKASU Atsuhiro
    • 国立情報学研究所実証研究センター Research Center for Testbeds and Prototying, National Institute of Informatics
    • 相原 健郎 AIHARA Kenro
    • 国立情報学研究所ソフトウェア研究系 Software Research Division, National Institute of Informatics

Abstract

電子図書館や文献検索において引用関係などに基づいて文献相互のリンクを形成することは,情報検索やナビゲーションを行う上で重要である.本論文では,電子化される以前の文献も含めた相互リンクを実現するために,文書画像解析の結果得られた引用文献文字列から書誌要素を抽出する方法を提案する.提案手法では,引用文献文字列の構文構造とOCRの認識誤りを扱うために,隠れマルコフモデルを拡張した統計モデルを用いる.ルールベースのシステムでは,ルールの獲得が大きな問題となるが,提案手法では,訓練データを用いた統計モデルのパラメータ推定アルゴリズムによってモデルを低コストで獲得できる.本論文では,OCRによって得られた引用文献文字列と大規模書誌データベースを用いて,提案手法の評価を行い,90%程度の精度で書誌要素を抽出できることを示す.更に,書誌要素の抽出に失敗した場合でも,引用文献文字列中の書誌要素のおおよその位置を特定できることを示し,文献の相互リンクのための書誌マッチングにおいて,高い精度で書誌要素を抽出できることを実験的に示す.

Journal

  • The Transactions of the Institute of Electronics,Information and Communication Engineers.

    The Transactions of the Institute of Electronics,Information and Communication Engineers. 87(6), 1298-1308, 2004-06-01

    The Institute of Electronics, Information and Communication Engineers

References:  19

Cited by:  2

Codes

  • NII Article ID (NAID)
    110003171120
  • NII NACSIS-CAT ID (NCID)
    AA11340957
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09151923
  • NDL Article ID
    6975786
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-1853
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top