統計翻訳における木構造制約の導入(機械翻訳・医療情報) "Trainig-free" Tree Structure Model for SMT

    • 山本 博史 YAMAMOTO Hirofumi
    • (独)情報通信研究機構,ATR音声言語コミュニケーション研究所 National Institute of Information and Communications Technology, ATR Spoken Language Translation Research Laboratories
    • 大熊 英男 OKUMA Hideo
    • (独)情報通信研究機構,ATR音声言語コミュニケーション研究所 National Institute of Information and Communications Technology, ATR Spoken Language Translation Research Laboratories
    • 隅田 英一郎 SUMITA Eiichiro
    • (独)情報通信研究機構,ATR音声言語コミュニケーション研究所 National Institute of Information and Communications Technology, ATR Spoken Language Translation Research Laboratories

抄録

機械翻訳において,構文情報は非常に有用であり、近年ではこの情報を統計翻訳にも取り入れる試みがなされている.構文情報を統計翻訳に用いる場合,その情報をコーパスから統計的に学習することになるが,それを用いない場合と比較して大量のパラメータも学習する必要が生じる.大量のパラメーターの学習を行うためには同じく大量の学習コーパスを必要とし,そのためにデータスパースネスの問題が生じる.このデータスパースネスの問題を避けるために,本稿では次の2点の仮定に基づく学習を必要としない構文情報モデルを提案する.翻訳原言語での関係のある単語は,翻訳先でも関係がる.関係を表すアークは交差しない.本モデルはSSMT2007英中翻訳タスクのデータを用いた実験で,従来法より1.9ポイント高いBLEU値(31.3から33.2)と,4.9%低いWER(69.2%から64.3%)を示し,有効性が確認できた.

For machine translation, syntax information is very useful. Recently, it is tried to introduce this information to statistical machine translation. In statistical machine translation, syntax information is extracted from corpus as statistical models through training. In this statistical models, larger number of parameters than conventional statistical translation models must be trained. Larger number of parameters requires larger training data. Request for larger training data makes data sparseness problem severer. To avoid this data sparseness problem, we proposed new syntax information introduction method. In proposed method, syntax information is modeled using following rules. The first is that word-to-word relation in translation source sentence is also kept in translation target sentence. The second is that word-to-word dependency arcs do not cross. This model is "training-free" and has no data sparseness problem. In our experiments using SSMT2007 English-to-Chinese limited track data, proposed method result in 1.9 points improvements in BLEU (from 31.3 to 33.2), and 4.9% lower WER (from 69.2% to 64.3%) compared with base line conditions.

収録刊行物

情報処理学会研究報告. 自然言語処理研究会報告   [巻号一覧]

情報処理学会研究報告. 自然言語処理研究会報告 2007(94), 65-70, 2007-09-25  [この号の目次]

一般社団法人情報処理学会

参考文献:  26件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110006402901
  • NII書誌ID(NCID) :
    AN10115061
  • 本文言語コード :
    JPN
  • 資料種別 :
    ART
  • ISSN :
    09196072
  • NDL 記事登録ID :
    8938545
  • NDL 雑誌分類 :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号 :
    Z14-1121
  • 収録DB :
    CJP書誌  NDL  NII-ELS 

書き出し