Support Vector Machineを用いた決定性上昇型依存構造解析

Bibliographic Information

Other Title
  • Support Vector Machine オ モチイタ ケッテイセイ ジョウショウガタ イゾン コウゾウ カイセキ
  • Bottom-up Deterministic Analysis of Dependency Structure Using Support Vector Machines
  • 自然言語

Search this article

Abstract

本論文では,英語文に対する統計的依存構造解析手法を提案する.様々な分野のテキストに対して高精度な統計的構文解析を実現するには,各分野ごとに解析済み訓練データを用意する必要がある.しかしPenn treebankのような句構造のタグ付け作業を行う場合,タグ付け者は対象言語を母国語とするだけでなく,言語学に関する専門知識が必要である.また対象とするテキストが,医学や法律文書などの専門分野では,言語学に関する知識だけでなく,その分野特有の専門知識が必要となり,タグ付け可能者の数はきわめて少なくなる.その結果,様々な分野で十分な訓練データを用意することが現実的に難しい.依存構造は単語間の修飾関係により文を表現するもので,句構造に比べ簡潔な構造である.したがって対象言語を母国語とする多くの人がタグ付け可能であり,構造の簡潔さはタグ付け者間での揺れを軽減し,高品質の訓練データを準備できる期待が持てる.我々は様々な分野に適用可能な統計的構文解析器の構築を目的とし,現実的に訓練データを準備可能という観点から,依存構造に注目する.対象分野で依存構造解析済みデータを獲得できた場合,それを訓練データとし直接解析規則を学習する必要がある.また学習したモデルを使用し未知の文を解析する統計的依存構造解析手法が必要となる.提案する依存構造解析手法は,文頭から順に2つの単語間の依存構造を決定的に構築する.またどのような文脈で適切な依存木を構築するかを,汎化性能の高い機械学習法SupportVector Machineを用いて学習する.提案した依存構造解析手法をPenn treebankを依存木に変換したデータを使用して評価実験を行った結果,句構造情報を使用せずに,90%を超える高い精度を得た.

In this paper, we propose a method for analyzing word-word dependencies using deterministic bottom-up manner using Support Vector Machines. To implement a statistical parser with high accuracy, we have to prepare annotated training data for each target domain. Phrase structure annotation is not easy because annotators need to be well acquainted with deep linguistic theories and phrase structure rules. This becomes a great hindrance to accumulation of large scale annotated corpus of phrase structures. On the other hand, word-word dependency relation is much easier to understand and is more amenable to annotators who have good knowledge of target text domain but may lack linguistic knowledge. Besides, since annotating simpler structure is useful for reaching a consensus among annotators, it is expected that construction of training data will become more noise-free. We experimented with dependency trees converted from Penn treebank data, and achieved over 90% accuracy of word-word dependency. Though the result is little worse than the most up-to-date phrase structure based parsers, it looks satisfactorily accurate considering that our parser uses no information from phrase structures.

Journal

Citations (2)*help

See more

References(16)*help

See more

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top