抄録
近年,Web上には大量かつ多種多様なWebページが存在しており,Web検索システムや質問応答システム,評判分析システム等の貴重な情報源となっている.Web上の情報の多くはテキスト形式で記述されているため,記述スタイル(文体やボキャブラリなど)という点において個人差が大きく,Web上の情報を精度よく獲得するのは容易でない.そこで,我々は,「育児に参加しない父親」のようなトピック表現(文字列)がクエリとして入力されたときに,そのトピックに関し何らかの記述のあるWebページを正確かつ網羅的に収集するトピック検索方式の実現を目指している.本稿では,その第1段階として,単語1語を別の単語1語に変換する語彙的言い換え方式を提案する.提案方式は,(1)クエリ中の内容語(普通名詞,サ変名詞,形容詞,動詞,カタカナ)に対する言い換え候補をWeb検索により獲得し,(2)言い換えの妥当性を2種類の共起辞書を用いて判定する.その結果,(3)言い換え可と判定された候補を用いて,新たなクエリを生成する.このとき,単語どうしの前接関係・後接関係・述語関係を示す共起辞書だけでなく,ある特定の評価軸に沿って対比させられた2つの単語群との共起関係を示す共起辞書(印象辞書)を用いて,言い換えの妥当性を判定する点が提案方式の特徴であり,いくつかのクエリを用いた評価実験により,その有効性を検証する.
We have been developing a retrieval scheme that accurately and exhaustively collects the Web pages which are related to a user-given topic on the Web. In this article, we propose a method for expanding queries using a paraphrase technique as the first step of this research. Our proposed method paraphrases a word in a user-given phrase into another word in the following way. When users entered a character string representing a topic as a query, the method extracts common nouns, action nouns, adjectives, verbs, and katakana characters as target words out of the query, and then obtains candidate words for paraphrasing the target words based on information retrieval on the Web. Validity in paraphrasing of these candidate words is tested using two kinds of co-occurrence dictionaries. Then, the method expands the initial query by paraphrasing zero or more of the target words into the candidate words that were determined to be valid. A distinctive point of our proposed method is that it uses not only a co-occurrence dictionary that describes the "preceding," "following." and "predicate" relationships between words but also a co-occurrence dictionary that describes relationships between words and two contrasting sets of impression words in order to test validity of their paraphrasing.