統計的機械翻訳におけるフレーズ対応最適化を利用したN-best翻訳候補のリランキング

書誌事項

タイトル別名
  • N-best Reranking Using Optimal Phrase Alignment for Statistical Machine Translation

この論文をさがす

抄録

フレーズベース統計的機械翻訳では,連続する単語列(フレーズ)を翻訳の最小単位とした確率的規則に基づいて翻訳候補の順位付けを行い,最も確率の高い候補を出力とする.しかし,入力文のフレーズ区切りや翻訳前後の訳語関係(フレーズ対応)の組合せ数は膨大である.そのため,従来の統計的機械翻訳システムは,翻訳候補およびフレーズ区切り・対応に対して大胆な近似を行うことで探索空間を狭めており,厳密な確率の最大化をしていない.本稿では,フレーズ対応・区切りに関する厳密な確率最大化を行う問題を,フレーズベース翻訳において広く用いられているすべての素性を考慮可能な形式で整数線形計画問題として定式化し,それを翻訳候補のリランキングに応用する手法を提案・実装する.評価実験の結果,提案手法は有意に翻訳精度を改善することが示されると同時に,フレーズベース翻訳における探索の課題は,フレーズ対応ではなく翻訳候補文についてより多くの候補を評価することにあるという示唆が得られた.

Phrase-based statistical machine translation system outputs the candidate having the highest probability based on the probabilistic phrase translation rules. However, there exist a huge number of translation candidates and ambiguities on phrase segmentations/alignments for source and target sentences. Therefore, the current statistical translation systems use various heuristics for reducing the number of translation candidates and approximating phrase-alignment probabilities, in order to narrow the search space. This paper proposes the formulation to strictly maximize the phrase-alignment probability computed from all features which most phrase-based statistical machine translation systems use within. We also propose a reranking method based on the proposed phrase alignment optimization. In evaluation experiments, our system improved significantly the translation quality. The experimental results also suggested that a variety of translation candidates are more important for increasing accuracy than exact phrase alignments.

収録刊行物

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

  • CRID
    1050845762829448192
  • NII論文ID
    110007970747
  • NII書誌ID
    AN00116647
  • ISSN
    18827764
  • Web Site
    http://id.nii.ac.jp/1001/00070151/
  • 本文言語コード
    ja
  • 資料種別
    journal article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ