学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出 Automatic Extraction of Bibliographic Elements from Scanned Academic Articles without Using Page Layout

この論文にアクセスする

この論文をさがす

抄録

国立情報学研究所の電子図書館 NII-ELS は,国内の主要な学術論文を網羅しており,その蔵書検索には著者名等の書誌情報が利用される.NII-ELS では論文文書画像を蓄積しているため,書誌情報は文書画像からなるべく自動で抽出することが望ましい.現在の文書画像処理技術により一定の抽出精度は達成しているが,学習のため人手で書誌要素を抽出した論文データを学術雑誌ごとに用意する必要がある.しかし 1000 雑誌以上を所蔵する NII-ELS では,各雑誌ごとにこの学習データを用意するコストは無視できない.そこで本研究では,書誌要素抽出対象の雑誌とは異なる雑誌を学習データに用いて効率的に書誌要素を抽出する手法を提案する.提案手法は,論文タイトルページの各行に対して,雑誌のレイアウトに依存しない文字列等の情報を利用して書誌ラベルを付与する.NII-ELS developed by the National Institute of Informatics is a digital library which stores scanned document images of a wide variety of academic journals in Japan. Bibliographic information is indispensable for searching such a digital library, hence, automatic extraction of bibliographic data from the images is very important. Therefore, Yakushi et al. proposed an automatic method of extracting bibliographies for academic articles scanned with OCR markup. Although they achieved excellent extraction accuracies for some journals, they needed a substantial amount of training data obtained through costly manual extraction of bibliographies from document images. We cannot ignore this cost because NII-ELS stores more than a thousand journals. This paper, therefore, proposes an automatic bibliography extraction method to use training data collected from journals different from a target journal. The proposed method labels each text line on an article's title page as appropriate bibliographic names by using linguistic information which is independent of page layout varying by journal.

収録刊行物

  • 研究報告データベースシステム(DBS)

    研究報告データベースシステム(DBS) 2010-DBS-151(18), 1-8, 2010-11-05

    情報処理学会

各種コード

  • NII論文ID(NAID)
    110008003699
  • NII書誌ID(NCID)
    AN10112482
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    1884-0930
  • NDL 記事登録ID
    025060382
  • NDL 請求記号
    YH247-911
  • データ提供元
    NDL  NII-ELS  IPSJ 
ページトップへ