特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して  [in Japanese] Producing Test Collections for Patent Information Processing : Toward the Fusion of Information Retrieval and Natural Language Processing  [in Japanese]

Search this Article

Author(s)

Abstract

情報検索や自然言語処理に関する技術を体系的に評価するためには,ベンチマークとして研究者が共有できる大規模なテストコレクションが必要である.本稿は,NTCIRワークショップにおいて構築している特許情報処理テストコレクションについて,検索,分類,機械翻訳,マイニングの観点から解説する.検索では技術動向調査,無効資料調査,パッセージ検索を目的とし,分類ではFタームに基づくカテゴリ分類を目的としたテストコレクションを構築した.現在進行中のワークショップでは,検索や分類で用いた日英特許情報を応用して,翻訳とマイニングに関するテストコレクションを構築している.翻訳では,対応特許(パテントファミリー)から抽出した文対応データをシステムの訓練や評価に用いる.マイニングでは,特許と技術論文を横断した技術動向分析を想定して,論文抄録に特許分類のカテゴリを付与することを目的とする.

To evaluate technologies for information retrieval and natural language processing systematically, sharable large test collections as benchmark data are needed. This paper describes the test collections for patent information processing at the NTCIR workshop from retrieval, classification, machine translation, and mining perspectives. For the retrieval task, test collections for technology survey, invalidity search, and passage retrieval were produced. For the classification task, test collections for the F-term patent classification system were produced. In the current workshop, applying the patent documents in Japanese and English that were used for the retrieval and classification tasks, test collections for machine translation and mining are being produced. For the translation task, sentence-aligned data extracted from patent families are used for training and evaluation purposes. For the mining task, aimed at the analysis of technology trends across patents and technical papers, the purpose is to categorize technical abstracts based on a patent classification system.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 89, 31-36, 2008-01-21

    Information Processing Society of Japan (IPSJ)

References:  13

Codes

  • NII Article ID (NAID)
    110006623444
  • NII NACSIS-CAT ID (NCID)
    AN10114171
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09196072
  • NDL Article ID
    9372295
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  NDL  NII-ELS 
Page Top