関連用語収集問題とその解法 Related Term Collection

この論文にアクセスする

この論文をさがす

著者

抄録

本論文で提案する<B>関連用語収集問題</B>は, 与えられた専門用語に対し, それと強く関連する用語集合を求める問題である.この問題を解くためには, ある用語が専門用語であり, かつ, 入力用語と強く関連するかどうかを判定する方法が必要となる.本研究では, ウェブのサーチエンジンのヒット数から計算したJaccard係数もしくはX<SUP>2</SUP>統計量を用いて, この判定を行なう.作成した関連用語収集システムは, 候補語収集モジュールと関連用語選択モジュールの2つのモジュールから構成される.候補語収集モジュールは, サーチエンジンを利用して, 入力用語が出現するウェブページを収集し, それらのページから関連用語の候補語を収集する.関連用語選択モジュールは, Jaccard係数あるいはX<SUP>2</SUP>統計量の値に基づき, 候補語の中から入力用語に強く関連する用語を選択する.実験により, 作成したシステムが入力用語に強く関連する十数語の専門用語を収集できることが確かめられた.

This paper proposes the <I>related term collection problem</I> and its solution.The related term collection problem is defined as collecting a dozen of technical terms that are closely related to a given seed term.In order to solve this problem, we use the Jaccard coefficient or the x<SUP>2</SUP> statistics on the Web, which is calculated by the search engine hits, for measuring relatedness between the given seed term and a candidate term.These measures also verify that the candidate term is a technical term.We have implemented a related term collection system, which consists of two modules. The first module collects candidate terms from the web pages that are retrieved by a search engine.The second module selects the terms that are closely related to the given term by using one of the above two measures.Experimental results show that the system can collect a dozen of closely related terms of the given term.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 13(3), 151-175, 2006-07-10 

    一般社団法人 言語処理学会

参考文献:  35件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  3件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10018202830
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    8048842
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ