木構造の属性を許す決定木学習アルゴリズム  [in Japanese] Decision Tree Learning Algorithm with Structured Attributes  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

機械翻訳システムなどの大規模な知識データを要するシステムでは,正確なデータを効率的に獲得することが問題となる.近年,これを実現する手段として,コーパスから機械学習アルゴリズムを用いて知識を獲得する手法が着目されている.この試みの1つに,C4.5などの決定木学習アルゴリズムを使って動詞の訳語決定に使う格フレームを学習する研究がある.C4.5を単純に格フレーム学習に応用すると,決定ノードに「目的語」などの格要素が,テスト項目には単語が出現する.しかしこのような決定木は,未学習事例を処理する場合に未知語が発生し,正しい訳語の決定が困難になる.この問題に対処するため,テストに使う単語群をシソーラスの概念ノードで一般化する手法が研究されている.しかし従来の手法は,概念ノードの選択の自由度が十分でない,あるいは選択方法の根拠が薄いという問題があった.そこで本論文では,概念ノードの選択問題を最適化問題として定式化し,この全解探索を行うことで上記の問題を解決することを提案する.そして,この提案を使った決定木学習アルゴリズムを示す.さらに,提案手法と,従来の一般化を行わない決定木学習アルゴリズムを使って,7つの英語基本動詞の訳し分け規則を学習する実験を行って本アルゴリズムの基本的な有効性を示す.The Decision Tree Learning Algorithms(DTLAs)are getting keen attention from the natural language processing research community,and there have been a series of attempts to apply them to verbal case frame acquisition.However,the conventional DTLAs cannot handle structured attribute like nouns,which are classified under a thesaurus.In this paper,we present a new efficient DTLA that can optimally handle the structured attribute.In the process of tree generation,the algorithm generalizes each attribute optimally with high efficiency using a given thesaurus.We apply this algorithm to a bilingual corpus and show that it successfully learned a generalized decision tree for classifying the 7 Englishverbs and that the trees were smaller with more prediction power on the open data than the trees learned by the conventional DTLA.

The Decision Tree Learning Algorithms (DTLAs) are getting keen attention from the natural language processing research community, and there have been a series of attempts to apply them to verbal case frame acquisition. However, the conventional DTLAs cannot handle structured attribute like nouns, which are classified under a thesaurus. In this paper, we present a new efficient DTLA that can optimally handle the structured attribute. In the process of tree generation, the algorithm generalizes each attribute optimally with high efficiency using a given thesaurus. We apply this algorithm to a bilingual corpus and show that it successfully learned a generalized decision tree for classifying the 7 English verbs and that the trees were smaller with more prediction power on the open data than the trees learned by the Conventional DTLA.

Journal

  • Transactions of Information Processing Society of Japan

    Transactions of Information Processing Society of Japan 38(11), 2122-2133, 1997-11-15

    Information Processing Society of Japan (IPSJ)

References:  16

Cited by:  4

Codes

  • NII Article ID (NAID)
    110002721662
  • NII NACSIS-CAT ID (NCID)
    AN00116647
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    1882-7764
  • NDL Article ID
    4332443
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-741
  • Data Source
    CJP  CJPref  NDL  NII-ELS  IPSJ 
Page Top