構造なしコーパスからの大規模な文脈自由文法の高速学習法  [in Japanese] An Efficient Grammar Induction Algorithm for Unannotated Corpora  [in Japanese]

    • 栗原 賢一 KURIHARA Kenichi
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 佐藤 泰介 SATO Taisuke
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology

Abstract

構造なしコーパスを用いた確率文脈自由文法の生成規則とそのパラメータの高速学習法を提案する。Lari & Youngは確率文脈自由文法の学習を行なったが、学習に時間がかかりすぎるという問題があった[5]。このような文法学習の高速化方法として小さい生成規則集合に徐々に生成規則を追加するという方法が提案されている[1]。本論文では文法が与えるコーパスの尤度を保存しつつ生成規則を追加する方法を示す。提案手法では尤度を増加させるEM学習と尤度を保存する生成規則の追加を繰り返すことで、尤度を単調増加させることができる。また本手法とLari & Youngの方法を用いて学習速度、精度に関する比較実験及び、ATR対話コーパス10,000文から文法学習実験を行なった。

We present an efficient algorithm which learns a probabilistic context-free grammar (PCFG) from an unannotated corpus. Lari & Young have devised a PCFG induction algorithm[5]. However, there was a problem with its efficiency. Ways of overcoming it by adding production rules incrementally have been presented as a faster algorithm than Lari & Young's [l]. In this paper, we propose a new method of adding production rules which preserve a likelihood of a corpus. Our algorithm increases a likelihood monotonically by EM learning and by carefully adding production rules. We also report results of experiments about efficiencies and precisions comparing our algorithm with Lari & Young's, together with an experiment of applying this algorithm to the ATR corpus containing l0,000 sentences.

Journal

IPSJ SIG Notes   [List of Volumes]

IPSJ SIG Notes 2003(57), 13-18, 2003-05-26  [Table of Contents]

Information Processing Society of Japan (IPSJ)

References:  8

You must have a user ID to see the references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Preview

Preview

Codes

  • NII Article ID (NAID) :
    110002911633
  • NII NACSIS-CAT ID (NCID) :
    AN10115061
  • Text Lang :
    JPN
  • Article Type :
    ART
  • ISSN :
    09196072
  • NDL Article ID :
    6615638
  • NDL Source Classification :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No. :
    Z14-1121
  • Databases :
    CJP  NDL  NII-ELS 

Share