係り受け木を利用した単語類似度計算方法とそのシソーラス拡張への応用  [in Japanese] A New Word Similarity Measure Capturing Dependency Tree Structure and Its Application to Thesaurus Expansion  [in Japanese]

    • 鈴木 郁美 Ikumi Suzuki
    • 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 原 一夫 Kazuo Hara
    • 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 新保 仁 Masashi Shimbo
    • 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 松本 裕治 Yuji Matsumoto
    • 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology

Abstract

本研究では並行ランダムウォークによりグラフ上の節点の類似度を測る方法を,自然言語処理のタスクの一つである,コーパスからの単語類似度測定に応用する.標準的な手法は,各々の単語に対し,コーパスから周辺単語を抽出する.その上で抽出した周辺単語から特徴ベクトルを作成し,比較したい単語対それぞれの特徴ベクトルが成す角度のコサイン (コサイン類似度) などを用いて単語対の類似度を測る.本研究では並行ランダムウォークにより単語類似度を測ることで,周辺単語の情報と係り受け木の構造の両方を考慮に入れて類似度の改良を試みる.具体的には,注目する 2 つの単語をそれぞれ含む 2 つの係り受け木において,注目する単語をそれぞれ出発点とするランダムウォークを並行して行い,2 つの単語の類似度をウォークの類似度の重み付き和として定義する.MeSH シソーラスと GENIA コーパスを用いた実験で,並行ランダムウォークを用いた手法はコサイン類似度による手法を上回る結果を得た.

A new word similarity measure is presented. Generally, bag-of-words model is applied to construct feature vectors. And consine similarity is widely used to measure word similarity in various natural language processing applications. In this paper, word similarity is measured not only by bag-of-words model but also by considering dependency tree structures. In the proposed method, similarity of two words is obtained by random walk in the dependency tree structures. As starting the corresponding nodes of the words, the similarity is calculated as the sum of weighted walk-paths in the dependency trees. As a result, the proposed similarity measure outperformed conventional consine similarity in thesaurus expansion task.

Journal

IPSJ SIG Notes   [List of Volumes]

IPSJ SIG Notes 2010-NL-199(1), 1-6, 2010-11-11  [Table of Contents]

Information Processing Society of Japan (IPSJ)

Codes

  • NII Article ID (NAID) :
    110008003303
  • NII NACSIS-CAT ID (NCID) :
    AN10115061
  • Text Lang :
    JPN
  • Databases :
    NII-ELS 

Share