単語の印象を考慮した言い換え処理に基づくクエリ展開(一般セッション(1),データ工学とメディア理解との融合) Query Expansion Based on Paraphrasing Using Emotional Aspects of Words

    • 熊本 忠彦 KUMAMOTO Tadahiko
    • 独立行政法人情報通信研究機構・自然言語グループ Computational Linguistics Group, National Institute of Information and Communications Technology

抄録

近年,Web上には大量かつ多種多様なWebページが存在しており,Web検索システムや質問応答システム,評判分析システム等の貴重な情報源となっている.Web上の情報の多くはテキスト形式で記述されているため,記述スタイル(文体やボキャブラリなど)という点において個人差が大きく,Web上の情報を精度よく獲得するのは容易でない.そこで,我々は,「育児に参加しない父親」のようなトピック表現(文字列)がクエリとして入力されたときに,そのトピックに関し何らかの記述のあるWebページを正確かつ網羅的に収集するトピック検索方式の実現を目指している.本稿では,その第1段階として,単語1語を別の単語1語に変換する語彙的言い換え方式を提案する.提案方式は,(1)クエリ中の内容語(普通名詞,サ変名詞,形容詞,動詞,カタカナ)に対する言い換え候補をWeb検索により獲得し,(2)言い換えの妥当性を2種類の共起辞書を用いて判定する.その結果,(3)言い換え可と判定された候補を用いて,新たなクエリを生成する.このとき,単語どうしの前接関係・後接関係・述語関係を示す共起辞書だけでなく,ある特定の評価軸に沿って対比させられた2つの単語群との共起関係を示す共起辞書(印象辞書)を用いて,言い換えの妥当性を判定する点が提案方式の特徴であり,いくつかのクエリを用いた評価実験により,その有効性を検証する.

We have been developing a retrieval scheme that accurately and exhaustively collects the Web pages which are related to a user-given topic on the Web. In this article, we propose a method for expanding queries using a paraphrase technique as the first step of this research. Our proposed method paraphrases a word in a user-given phrase into another word in the following way. When users entered a character string representing a topic as a query, the method extracts common nouns, action nouns, adjectives, verbs, and katakana characters as target words out of the query, and then obtains candidate words for paraphrasing the target words based on information retrieval on the Web. Validity in paraphrasing of these candidate words is tested using two kinds of co-occurrence dictionaries. Then, the method expands the initial query by paraphrasing zero or more of the target words into the candidate words that were determined to be valid. A distinctive point of our proposed method is that it uses not only a co-occurrence dictionary that describes the "preceding," "following." and "predicate" relationships between words but also a co-occurrence dictionary that describes relationships between words and two contrasting sets of impression words in order to test validity of their paraphrasing.

収録刊行物

電子情報通信学会技術研究報告. DE, データ工学   [巻号一覧]

電子情報通信学会技術研究報告. DE, データ工学 106(97), 1-6, 2006-06-08  [この号の目次]

一般社団法人電子情報通信学会

参考文献:  20件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110004751950
  • NII書誌ID(NCID) :
    AN10012921
  • 本文言語コード :
    JPN
  • 資料種別 :
    ART
  • ISSN :
    09135685
  • NDL 記事登録ID :
    7975545
  • NDL 雑誌分類 :
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号 :
    Z16-940
  • 収録DB :
    CJP書誌  NDL  NII-ELS