データクリーニングを統合した情報抽出システムの提案  [in Japanese] A Proposal of Information Extraction System with Data Cleaning Facility  [in Japanese]

Search this Article

Author(s)

    • 黒川 沙弓 KUROKAWA Sayumi
    • 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 Department of Computer Science, Graduate School of Systems and Information Engineering, University of Tsukuba
    • 張 建偉 [他] ZHANG Jianwei
    • 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 Department of Computer Science, Graduate School of Systems and Information Engineering, University of Tsukuba
    • 北川 博之 KITAGAWA Hiroyuki
    • 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 Department of Computer Science, Graduate School of Systems and Information Engineering, University of Tsukuba

Abstract

ウェブなどの大量のテキスト情報源から有用な情報を取得するための情報抽出は,データ工学における重要な研究課題の一つとなっている.有用な情報抽出のためには,抽出結果に含まれる誤りやノイズを削減することが求められる.そこで,本研究では情報抽出にデータクリーニングを統合し,ユーザによる対話的なフィードバックを利用することにより,精度の高い情報抽出システムの提案を行う.ブートストラップ型のレコード抽出手法の処理プロセスにデータクリーニング処理も含め,ユーザからのフィードバックを抽出レコードや抽出パターンの評価に反映させる.

Information extraction to acquire useful information from a large amount of text sources such as Web is one of the important research topics in data engineering. For useful information extraction, errors and noises included in extraction results should be reduced. In this paper, we propose an approach to an information extraction system with high accuracy by integrating data cleaning into information extraction and using interactive feedbacks from users. The approach is based on the bootstrap record extraction method and includes data cleaning in the process of record extraction. User feedbacks are reflected in the evaluation of the extracted records and the extraction patterns.

Journal

  • IEICE technical report

    IEICE technical report 106(150), 61-66, 2006-07-07

    The Institute of Electronics, Information and Communication Engineers

References:  11

Cited by:  1

Codes

  • NII Article ID (NAID)
    110004833210
  • NII NACSIS-CAT ID (NCID)
    AN10012921
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09135685
  • NDL Article ID
    8018143
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top