構造と構成要素に基づく学術論文の自動判定 Automatic Detection of Scientific Papers Based on Their Structure and Elements

この論文にアクセスする

この論文をさがす

著者

抄録

ウェブ上に存在するPDFファイル群から学術論文を自動的に判定する手法の開発を目的とした。まず,学術論文の構成要素と構造がどのように発達してきたかを調査した。英語と日本語の学術論文1,172件に対して,それらが顕れているかを調査した。その結果,論文は共通した構成要素を有しており,見出しを持つ論文のうち40%近くがIMRAD形式またはそれに近い構造を採っていた。次に,これらの結果をもとに,学術論文を自動的に判定するためのルールを構築した。ウェブ上から無作為に収集した英語と日本語のPDFファイル集合を用いて判定性能を実験したところ,ランダムフォレストによる判定器を用いた場合,F値は英語集合では0.74,日本語集合では0.53であった。これらの結果から,本研究で用いたアプローチにより構築した判定ルールにより,ウェブ上に存在するPDFファイル群から学術論文を自動的に判定できる可能性が示唆された。

In this paper, we develop rules for the automatic detection of scientific papers from PDF files on the Web. We inspected the structure and elements of scientific papers and observed that scientific papers typically have certain basic elements and an IMRAD format. We examined 1,172 scientific papers on the Web. The results indicate that the papers share common elements such as title, authors, keyword, and references and 40% of the papers, which have an explicit structure, have an IMRAD or a similar format. We develop rules for automatic detection of scientific papers using information based on their structure and elements obtained from the inspection process. The rules are evaluated using English and Japanese PDF collections, which were compiled by random sampling from the Web and consisted of 20,000 files each. Random forest classifier is performed and an F-value of 0.74 is obtained for English PDF files and 0.53 for Japanese PDF files. These results indicate that the rules developed using the approach given in this study can detect scientific papers from PDF files on the Web.

収録刊行物

  • 日本図書館情報学会誌

    日本図書館情報学会誌 60(1), 18-34, 2014

    日本図書館情報学会

各種コード

  • NII論文ID(NAID)
    110009816038
  • NII書誌ID(NCID)
    AA11333306
  • 本文言語コード
    JPN
  • ISSN
    1344-8668
  • NDL 記事登録ID
    025453669
  • NDL 請求記号
    Z21-133
  • データ提供元
    NDL  NII-ELS  J-STAGE 
ページトップへ