Read/Search this Article
Abstract
本研究では並行ランダムウォークによりグラフ上の節点の類似度を測る方法を,自然言語処理のタスクの一つである,コーパスからの単語類似度測定に応用する.標準的な手法は,各々の単語に対し,コーパスから周辺単語を抽出する.その上で抽出した周辺単語から特徴ベクトルを作成し,比較したい単語対それぞれの特徴ベクトルが成す角度のコサイン (コサイン類似度) などを用いて単語対の類似度を測る.本研究では並行ランダムウォークにより単語類似度を測ることで,周辺単語の情報と係り受け木の構造の両方を考慮に入れて類似度の改良を試みる.具体的には,注目する 2 つの単語をそれぞれ含む 2 つの係り受け木において,注目する単語をそれぞれ出発点とするランダムウォークを並行して行い,2 つの単語の類似度をウォークの類似度の重み付き和として定義する.MeSH シソーラスと GENIA コーパスを用いた実験で,並行ランダムウォークを用いた手法はコサイン類似度による手法を上回る結果を得た.
A new word similarity measure is presented. Generally, bag-of-words model is applied to construct feature vectors. And consine similarity is widely used to measure word similarity in various natural language processing applications. In this paper, word similarity is measured not only by bag-of-words model but also by considering dependency tree structures. In the proposed method, similarity of two words is obtained by random walk in the dependency tree structures. As starting the corresponding nodes of the words, the similarity is calculated as the sum of weighted walk-paths in the dependency trees. As a result, the proposed similarity measure outperformed conventional consine similarity in thesaurus expansion task.
Journal
- IPSJ SIG Notes [List of Volumes]
-
IPSJ SIG Notes 2010-NL-199(1), 1-6, 2010-11-11 [Table of Contents]
Information Processing Society of Japan (IPSJ)
Share