大域的な情報を用いた未知語の品詞推定

Bibliographic Information

Other Title
  • タイイキテキナ ジョウホウ オ モチイタ ミチゴ ノ ヒンシ スイテイ
  • Guessing Parts-of-speech of Unknown Words Using Global Information
  • 自然言語

Search this article

Abstract

本稿では,局所的な情報と大域的な情報を用いて未知語の品詞推定を行う手法を提案する.多くの従来手法において,未知語の品詞は局所的な情報(未知語の前後数単語内,あるいは未知語が含まれる文内の情報等)のみを用いて推定されるが,大域的な情報(同じ語形を持つ未知語が文書中の別の場所でどのような品詞として使われているかという情報)は未知語の品詞推定を行ううえでしばしば有用な手がかりとなる.局所的な情報だけではなく大域的な情報も利用して未知語の品詞を推定するために,文書中に出現する同じ語形を持つすべての未知語の品詞を同時に考慮した確率モデルを提案し,ギブスサンプリングを用いて解析を行う.また提案手法において,品詞情報が付与されていないようなラベルなしデータを利用する方法も検討する.複数のコーパスを使用して実験を行った結果,提案手法を用いることにより,特に中国語と日本語において高い精度で未知語の品詞を推定できることを確認した.

In this paper, we present a method for guessing POS tags of unknown words using local and global information. Although many existing methods use only local information (i.e. limited window size or intra-sentential features), global information (such as consistency of POS tags of unknown words with the same lexical form) provides valuable clues for predicting POS tags of unknown words. We propose a probabilistic model, in which all the occurrences of the unknown words with the same lexical form in a document are taken into consideration at once, for guessing POS tags of unknown words using global information as well as local information, and predict POS tags of unknown words using Gibbs sampling. We also attempt to utilize unlabeled data which is not attached POS tags. We conduct experiments on multiple corpora, and show that the method improves accuracy of POS guessing of unknown words especially for Chinese and Japanese.

Journal

Citations (2)*help

See more

References(26)*help

See more

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top