抄録
機械翻訳において,構文情報は非常に有用であり、近年ではこの情報を統計翻訳にも取り入れる試みがなされている.構文情報を統計翻訳に用いる場合,その情報をコーパスから統計的に学習することになるが,それを用いない場合と比較して大量のパラメータも学習する必要が生じる.大量のパラメーターの学習を行うためには同じく大量の学習コーパスを必要とし,そのためにデータスパースネスの問題が生じる.このデータスパースネスの問題を避けるために,本稿では次の2点の仮定に基づく学習を必要としない構文情報モデルを提案する.翻訳原言語での関係のある単語は,翻訳先でも関係がる.関係を表すアークは交差しない.本モデルはSSMT2007英中翻訳タスクのデータを用いた実験で,従来法より1.9ポイント高いBLEU値(31.3から33.2)と,4.9%低いWER(69.2%から64.3%)を示し,有効性が確認できた.
For machine translation, syntax information is very useful. Recently, it is tried to introduce this information to statistical machine translation. In statistical machine translation, syntax information is extracted from corpus as statistical models through training. In this statistical models, larger number of parameters than conventional statistical translation models must be trained. Larger number of parameters requires larger training data. Request for larger training data makes data sparseness problem severer. To avoid this data sparseness problem, we proposed new syntax information introduction method. In proposed method, syntax information is modeled using following rules. The first is that word-to-word relation in translation source sentence is also kept in translation target sentence. The second is that word-to-word dependency arcs do not cross. This model is "training-free" and has no data sparseness problem. In our experiments using SSMT2007 English-to-Chinese limited track data, proposed method result in 1.9 points improvements in BLEU (from 31.3 to 33.2), and 4.9% lower WER (from 69.2% to 64.3%) compared with base line conditions.