辞書式順序を持つペナルティによるゼロ代名詞解消

書誌事項

タイトル別名
  • ジショシキ ジュンジョ オ モツ ペナルティ ニ ヨル ゼロ ダイメイシ カイショウ
  • Japanese Zero Pronoun Resolution Based on Lexicographical Ordering of Penalties
  • 自然言語

この論文をさがす

抄録

日本語では,主語や目的語などが省略されることが多く,これらの省略はゼロ 代名詞と呼ばれる.機械翻訳や質問応答などのシステムでは,ゼロ代名詞 の解消,つまり,何が省略されているかの推定が性能向上につながると期待できる.他の自然言語処理タスクと同様,これまでは経験則に基づくアプローチが主であったが,最近,機械学習によるアプローチが注目されている.しかし,高品質な訓練データを大量に準備することは難しい.そこで 本論文では,経験則と機械学習の効果的な組合せ方法を提案する.まず,照応解析の機械学習が,通常の分類学習より 困難な複数インスタンス学習の一種であることを指摘し,学習を簡単化するために,経験則を導入する.既存の複数の経験則を理解しやすい形で統合するために,ペナルティの 辞書式順序を定義し,実験により,選択制限と属性共有を 重視した辞書式順序が,SVMに匹敵する性能を出せることを示す.そして同一表記で出現位置の異なる候補が複数ある場合に,その中で辞書式順序で一番条件の良い候補だけを使うと,機械学習の性能が向上することが実証された.さらに,最良の候補を機械学習で選択するさいに,SVMの3つのバリエーションの中で,「優先度学習」と呼ばれる手法が 安定して高い性能を示すことが判明した.

In Japanese, subjects and objects in a sentence are often omitted and these omissions are called zero pronouns. Zero pronoun resolution is expected to be useful for machine translation and question answering systems. Just like other natural language processing tasks, conventional studies used heuristic approaches, but recently, machine learning approach is becoming popular. However, it is difficult to prepare a large amount of training data. In this paper, we propose a method that combines heuristic ranking rules and machine learning. First, we show that anaphora resolution is a kind of Multiple-Instance Learning. In order to alleviate the problem, we introduce comprehensible lexicographical orderings of candidates based on penalties given by conventional heuristic rules. According to our experiments, simple orderings that emphasize selectional retriction and property-sharing constraint is comparable to SVM. Since some candidates appear repeatedly in a document, we applied the lexicographical ordering method to pick up only the best context for each candidate. Then, the machine learning methods gave better results. Furthermore, among three variations of Support Vector Machines, preference learning showed stable and good performance.

収録刊行物

参考文献 (30)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ