メモリ駆動型トピック導出に向けて  [in Japanese] Leveraging Wikipedia to Find What the Story is About  [in Japanese]

Search this Article

Author(s)

    • 野本 忠司
    • 現在,国文学研究資料館・総合研究大学院大学

Abstract

本稿では,ウィキペディアを使った新たなトピック検出方法について述べる.基本的に辞書の逆引きの要領で,ニューステキストのトピックを導出する.しかし,この手法では辞書 (ウィキペディア) に載っていない事象についてのトピックを付与することができない.このため本稿では文圧縮の技術を取り入れることで,トピックラベルの候補を柔軟に生成し,ニュース内容により近いトピックを構成することを考える.有効性を確認するため,二つのニュースコーパス (英語) を利用して実験を行い.従来手法に比べて,本手法が優れていることを確認した.

This paper talks about a novel approach for finding what a news story is about. Basically what we do consists of looking up the Wikipedia backward to identify a topic in a news story, i.e., we start with what amounts to be a definition, and ask Wikipedia what label matches that definition. An obvious issue with this approach is that there is no way to get a label for an event that is not listed in Wikipedia. This is an issue we address in this paper. Our solution makes use of sentence compression to generate on the fly a set of potential labels from the label we find in Wikipedia, choosing among them those that best represent the content of the story. We ran experiments on a test data derived from the New York Times and TDT Pilot Study Corpus, which found that our approach fared quite favorably compared to prior work, including TextRank, a state of the art in this field.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2015-IFAT-117(1), 1-7, 2015-01-30

    Information Processing Society of Japan (IPSJ)

Codes

  • NII Article ID (NAID)
    110009873270
  • NII NACSIS-CAT ID (NCID)
    AN10114171
  • Text Lang
    JPN
  • Data Source
    NII-ELS 
Page Top