Read/Search this Article
Abstract
近年,言い換えに関する知識を自動的に獲得する試みが多く報告されているが,そのような言い換え知識が保証するのは特定の文脈における同義性に過ぎない.このため,獲得した知識を用いる際に,言い換えの関係にない表現を誤って認識・生成してしまうことが問題となる.そこで本稿では,日本語述語句の統語的異形を対象とし,述語句とそこから自動的に生成された統語的異形の間の「言い換えらしさ」を計算する手法について検討する.ここで言う「言い換えらしさ」とは,(i)各表現の文法的・意味的適格性,(ii)二つの表現間の意味の同義性,(iii)置換可能な文脈の存在性をまとめた概念を指す.提案手法では,語の類似度計算に用いられてきた分布類似度の考え方を述語句間の類似度計算に応用して,上記の「言い換えらしさ」を近似する.その際に用いる述語句の文脈的素性は,検索エンジンを通じて得られるウェブページの断片(スニペット)から抽出する.3種類の評価実験を通じて,各述語句の文脈的素性は語を対象とする場合よりも顕著に疎であるにもかかわらず,それらの分布を直接比較することが言い換えらしさを計算する上で有効であることを確認した.
In a broad range of natural language processing tasks, large-scale knowledge-base of paraphrases is anticipated to improve their performance. The key issue in creating such a resource is to establish a practical method of computing semantic equivalence and syntactic substitutability, i.e., paraphrasability, between given pair of expressions. This paper addresses the issues of computing paraphrasability, focusing on syntactic variants of predicate phrases. Our model estimates paraphrasability based on traditional distributional similarity measures, where the Web snippets are used to overcome the data sparseness problem in handling predicate phrases. Several feature sets are evaluated through empirical experiments.
Journal
- IPSJ SIG Notes [List of Volumes]
-
IPSJ SIG Notes 2007(113), 23-30, 2007-11-19 [Table of Contents]
Information Processing Society of Japan (IPSJ)