古典中国語形態素解析のための品詞体系再構築

書誌事項

タイトル別名
  • Refactoring of Wordclasses for Morphological Analysis of Classical Chinese

抄録

本研究は、古典中国語に対して形態素解析を行うことを目的とし、古典中国語の品詞体系の再構築を試みた過程と現時点での形態素解析の結果報告である。本研究で用いる形態素解析エンジンは、オープンソースのMeCab である。MeCab は最低限、辞書があれば動作するが、形態素情報をもたせた学習用コーパスがあればより精度を高められる。しかし、古典中国語の解析用に作られた辞書も学習用コーパスもこれまでには存在しないため、本研究では、専用辞書の設計を行い、同時にそれに合わせて古典中国語の品詞体系の再構築を行った。この品詞体系の特徴は、(1) 形態的な特徴を手がかりとせず、個々の語彙の意味範疇を細分化した素性を用いること、(2) 作業者に複雑な判断を強いないように、コンテクストに依存した分類をできるだけ排除したことである。本論文では、この品詞体系構築の過程の報告と、それを用いた現段階での試行的な解析結果とを報告する。

This paper explains an overview of a refactoring of prototype morphological analyzer for Classical Chinese based on MeCab, especially it focuses on the redesigning of wordclasses for the morphological analyzer. The redesigned wordclasses are based on an analysis of morphological corpora developed with the prototype morphological analyzer. We are refactoring our dictionary based on the redesigned wordclasses, and we are also developing new corpora. The characteristics of the redesigned wordclasses use features: (1) that come from subcategorized word meaning, and (2) that are uniquely-determinable and context-free. This paper reports the policy and process of refactoring, and reports some results of test run.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050011097126083712
  • NII論文ID
    170000072958
  • Web Site
    http://id.nii.ac.jp/1001/00087001/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ