二階層類似度モデルによる多言語リンク検出  [in Japanese] Two-Tier Similarity Model in Story Link Detection  [in Japanese]

Search this Article

Author(s)

Abstract

本稿では,複数のニュース記事が同じ出来事(トピック)を扱ったものであるか否かを判定するリンク検出問題において新たな手法を提案する.本手法は従来法とは異なり,記事文書の類似度を,文書レベルと関連性フィードバックによって拡張された文書集合レベルの二段階で測定しその結果をもとにリンク検出を行うというものである.本研究では,一般に類似度を二段階化することでリンク検出の精度が向上することを,TDTコーパスを用いて示す.さらに提案手法では,従来法の代表であるClarity補正型対称カルバック・ライブラー・ダイバージェンスを凌ぐ性能が得られることを示す.

The paper presents a novel approach to story link detection, whose goal is to determine whether a pair of news stories are linked, i.e., talk about the same event. The present work marks a departure from the prior work in that we measure similarity at two distinct levels of textual organization, namely, document and its cluster, and combine the scores to determine how well stories are linked. Experiments found that the present approach, which we call a 'two-tier similarity model,' comfortably beats the conventional approaches such as the cosine model and Clarity enhanced two-way KL divergence.

Journal

  • IEICE technical report

    IEICE technical report 110(63), 13-17, 2010-05-21

    The Institute of Electronics, Information and Communication Engineers

References:  9

Codes

  • NII Article ID (NAID)
    110008002450
  • NII NACSIS-CAT ID (NCID)
    AN10449078
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    10712420
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top