Read/Search this Article
Abstract
構造なしコーパスを用いた確率文脈自由文法の生成規則とそのパラメータの高速学習法を提案する。Lari & Youngは確率文脈自由文法の学習を行なったが、学習に時間がかかりすぎるという問題があった[5]。このような文法学習の高速化方法として小さい生成規則集合に徐々に生成規則を追加するという方法が提案されている[1]。本論文では文法が与えるコーパスの尤度を保存しつつ生成規則を追加する方法を示す。提案手法では尤度を増加させるEM学習と尤度を保存する生成規則の追加を繰り返すことで、尤度を単調増加させることができる。また本手法とLari & Youngの方法を用いて学習速度、精度に関する比較実験及び、ATR対話コーパス10,000文から文法学習実験を行なった。
We present an efficient algorithm which learns a probabilistic context-free grammar (PCFG) from an unannotated corpus. Lari & Young have devised a PCFG induction algorithm[5]. However, there was a problem with its efficiency. Ways of overcoming it by adding production rules incrementally have been presented as a faster algorithm than Lari & Young's [l]. In this paper, we propose a new method of adding production rules which preserve a likelihood of a corpus. Our algorithm increases a likelihood monotonically by EM learning and by carefully adding production rules. We also report results of experiments about efficiencies and precisions comparing our algorithm with Lari & Young's, together with an experiment of applying this algorithm to the ATR corpus containing l0,000 sentences.
Journal
- IPSJ SIG Notes [List of Volumes]
-
IPSJ SIG Notes 2003(57), 13-18, 2003-05-26 [Table of Contents]
Information Processing Society of Japan (IPSJ)
Share