単語の印象を考慮した言い換え処理に基づくクエリ展開(一般セッション(1),データ工学とメディア理解との融合)  [in Japanese] Query Expansion Based on Paraphrasing Using Emotional Aspects of Words  [in Japanese]

    • 熊本 忠彦 KUMAMOTO Tadahiko
    • 独立行政法人情報通信研究機構・自然言語グループ Computational Linguistics Group, National Institute of Information and Communications Technology

Abstract

近年,Web上には大量かつ多種多様なWebページが存在しており,Web検索システムや質問応答システム,評判分析システム等の貴重な情報源となっている.Web上の情報の多くはテキスト形式で記述されているため,記述スタイル(文体やボキャブラリなど)という点において個人差が大きく,Web上の情報を精度よく獲得するのは容易でない.そこで,我々は,「育児に参加しない父親」のようなトピック表現(文字列)がクエリとして入力されたときに,そのトピックに関し何らかの記述のあるWebページを正確かつ網羅的に収集するトピック検索方式の実現を目指している.本稿では,その第1段階として,単語1語を別の単語1語に変換する語彙的言い換え方式を提案する.提案方式は,(1)クエリ中の内容語(普通名詞,サ変名詞,形容詞,動詞,カタカナ)に対する言い換え候補をWeb検索により獲得し,(2)言い換えの妥当性を2種類の共起辞書を用いて判定する.その結果,(3)言い換え可と判定された候補を用いて,新たなクエリを生成する.このとき,単語どうしの前接関係・後接関係・述語関係を示す共起辞書だけでなく,ある特定の評価軸に沿って対比させられた2つの単語群との共起関係を示す共起辞書(印象辞書)を用いて,言い換えの妥当性を判定する点が提案方式の特徴であり,いくつかのクエリを用いた評価実験により,その有効性を検証する.

We have been developing a retrieval scheme that accurately and exhaustively collects the Web pages which are related to a user-given topic on the Web. In this article, we propose a method for expanding queries using a paraphrase technique as the first step of this research. Our proposed method paraphrases a word in a user-given phrase into another word in the following way. When users entered a character string representing a topic as a query, the method extracts common nouns, action nouns, adjectives, verbs, and katakana characters as target words out of the query, and then obtains candidate words for paraphrasing the target words based on information retrieval on the Web. Validity in paraphrasing of these candidate words is tested using two kinds of co-occurrence dictionaries. Then, the method expands the initial query by paraphrasing zero or more of the target words into the candidate words that were determined to be valid. A distinctive point of our proposed method is that it uses not only a co-occurrence dictionary that describes the "preceding," "following," and "predicate" relationships between words but also a co-occurrence dictionary that describes relationships between words and two contrasting sets of impression words in order to test validity of their paraphrasing.

Journal

Technical report of IEICE. PRMU   [List of Volumes]

Technical report of IEICE. PRMU 106(99), 1-6, 2006-06-08  [Table of Contents]

The Institute of Electronics, Information and Communication Engineers

References:  20

You must have a user ID to see the references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Preview

Preview

Codes

  • NII Article ID (NAID) :
    110004748916
  • NII NACSIS-CAT ID (NCID) :
    AN10541106
  • Text Lang :
    JPN
  • Article Type :
    ART
  • ISSN :
    09135685
  • NDL Article ID :
    7975634
  • NDL Source Classification :
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No. :
    Z16-940
  • Databases :
    CJP  NDL  NII-ELS 

Export