HPSG Supertagging の精度向上のための単語クラスタリング Word Clustering for HPSG Superatagging

この論文にアクセスする

この論文をさがす

著者

抄録

HPSG 構文解析における supertagging の精度を向上させることを目的として,単語クラスタリングの結果を利用した.Supertagging とは、一つの単語に割り当てられうる語彙項目の候補を確率モデルを用いて削減する方法である.一方で,supertagging は構文解析の速度と精度を向上させるものの,間違った候補削減によって致命的な構文解析のエラーを引き起こしてしまうことがある.低頻度語に関するデータの少なさ (スパース性) は前述の致命的なエラーの原因となりうる.我々は大規模コーパスに対して Brown らの単語クラスタリングを実行し,得られるクラスタのビット列を supertagging への新たな素性として導入した.単語クラスタ情報は,単語のスパース性を軽減すると考えられる.Penn Treebank を用いた実験により精度を検証したが,精度向上はみられなかった.本稿ではその原因についての分析・考察を行う.This paper is aimed at increasing the accuracy of supertagging for a Head-Driven Phrase Structure Grammar (HPSG) parser, using class features induced from word clustering. Supertagging is a technique to eliminate possible candidates of lexical entries to a word by using a probabilistic model before parsing. Although supertagging improves the speed and accuracy of HPSG parsers, a wrong elimination of lexical entries can cause fatal errors in HPSG parsing. The sparseness of infrequent words is possibly related to these mistakes. Since previous supertaggers use simple N-grams of part-of-speech tags and words as features, examples of infrequent words are not sufficient to estimate a probabilistic model. We applied Brown's word clustering algorithm to BLIPP corpus and introduced new features with the result of clustering in a probabilistic model of a supertagger. In our experiments using the Penn Treebank, word clustering does not improve our supertagger. This paper presents our analysis of the reason for this observation.

収録刊行物

  • 研究報告自然言語処理(NL)

    研究報告自然言語処理(NL) 2009-NL-191(6), 1-7, 2009-05-14

    情報処理学会

参考文献:  11件中 1-11件 を表示

各種コード

  • NII論文ID(NAID)
    110008003204
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    024778882
  • NDL 請求記号
    YH247-911
  • データ提供元
    CJP書誌  NDL  NII-ELS  IPSJ 
ページトップへ