統計的機械翻訳におけるフレーズ対応最適化を利用したN-best翻訳候補のリランキング
書誌事項
- タイトル別名
-
- N-best Reranking Using Optimal Phrase Alignment for Statistical Machine Translation
この論文をさがす
抄録
フレーズベース統計的機械翻訳では,連続する単語列(フレーズ)を翻訳の最小単位とした確率的規則に基づいて翻訳候補の順位付けを行い,最も確率の高い候補を出力とする.しかし,入力文のフレーズ区切りや翻訳前後の訳語関係(フレーズ対応)の組合せ数は膨大である.そのため,従来の統計的機械翻訳システムは,翻訳候補およびフレーズ区切り・対応に対して大胆な近似を行うことで探索空間を狭めており,厳密な確率の最大化をしていない.本稿では,フレーズ対応・区切りに関する厳密な確率最大化を行う問題を,フレーズベース翻訳において広く用いられているすべての素性を考慮可能な形式で整数線形計画問題として定式化し,それを翻訳候補のリランキングに応用する手法を提案・実装する.評価実験の結果,提案手法は有意に翻訳精度を改善することが示されると同時に,フレーズベース翻訳における探索の課題は,フレーズ対応ではなく翻訳候補文についてより多くの候補を評価することにあるという示唆が得られた.
Phrase-based statistical machine translation system outputs the candidate having the highest probability based on the probabilistic phrase translation rules. However, there exist a huge number of translation candidates and ambiguities on phrase segmentations/alignments for source and target sentences. Therefore, the current statistical translation systems use various heuristics for reducing the number of translation candidates and approximating phrase-alignment probabilities, in order to narrow the search space. This paper proposes the formulation to strictly maximize the phrase-alignment probability computed from all features which most phrase-based statistical machine translation systems use within. We also propose a reranking method based on the proposed phrase alignment optimization. In evaluation experiments, our system improved significantly the translation quality. The experimental results also suggested that a variety of translation candidates are more important for increasing accuracy than exact phrase alignments.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 51 (8), 1443-1451, 2010-08-15
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050845762829448192
-
- NII論文ID
- 110007970747
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
-
- Web Site
- http://id.nii.ac.jp/1001/00070151/
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- CiNii Articles
- KAKEN