コーパスに基づく有限状態文法の状態遷移図の自動獲得

書誌事項

タイトル別名
  • コーパス ニ モトヅク ユウゲン ジョウタイ ブンポウ ノ ジョウタイ センイズ ノ ジドウ カクトク
  • A Method for Automatic Acquisition of the State Diagram of a Finite State Grammar from a Text Corpus
  • 知識処理

この論文をさがす

抄録

有限状態オートマトンは自然言語の文法規則を状態遷移図上で近似的に記述するのに適しており,文解析に広く用いられている.しかし,多種多様な文を効率良く処理するための状態遷移図を人間が完全に記述するのはきわめて困難である.本稿は,このような見地から,文解析への適用を目的とした有限状態文法の状態遷移図をコーパスから自動的に獲得する方法を提案するものである.この方法では,まず,状態遷移図の状態数をあらかじめ定め,コーパスに基づいてランダムな状態遷移図を作成する.次に,それを条件つきエントロピーに着目して評価し,シミュレーテッド・アニーリング法を用いて条件つきエントロピーが最小となるよう状態割当を変更する.この方法に従って獲得した状態遷移図,および,それと同じコーパスから求めた形態素バイグラムを,(1)形態素バイグラムのみを用いる方法,(2)状態遷移図のみを用いる方法,(3)状態遷移図を用いる方法で,条件つき確率が0となる場合に形態素バイグラムを併用して探索を継続する方法,(4)状態遷移図のみを用いる方法で,条件つき確率が0となる場合に機能上類似する経路を追加し,状態遷移図を拡張して探索を継続する方法,の4つの方法に従って形態素解析に適用し,獲得した状態遷移図を文解析に適用したときの有効性を検証した結果,方法(4)が最も効果的であり,それ以降は,(3),(2),(1)の順となることを確認した.また,この結果から,獲得方法が妥当であることを確認した.

Finite state automata are widely used in text analysis since they can approximate the grammars of natural languages. It is, however, quite difficult for humans to constructthe complete state diagram of an automaton that can process a large amount of text data efficiently. The present paper proposes a procedure for automatic acquisition of thestate diagram from a text corpus, with an aim to apply it to text analysis. In this procedure, the number of states is given in advance, and an initial state diagram is constructed at random. The diagram is then evaluated in terms of the conditional entropy,and state assignment is iteratively modified by the method of simulated annealing until the conditional entropy reaches a minimum. In order to compare the performances of methods based on the acquired state diagram with that of a method based on bigrams,experiments on morpheme analysis of sentences from a corpus of weather forecasts were conducted using the following four methods: (1) morpheme bigrams, (2) state diagram only,(3) state diagram supplemented by morpheme bigrams, and (4) expanded state diagram. The results indicate that the four methods are generally ranked in the order of (4) - (3) - (2) - (1), thus confirming the validity of the proposed methods based on state diagramacquisition.

収録刊行物

参考文献 (14)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ