対訳コーパスを利用した対訳表現の自動抽出

書誌事項

タイトル別名
  • タイヤク コーパス オ リヨウシタ タイヤク ヒョウゲン ノ ジドウ チュウシ
  • Automatic Extraction of Translation Patterns in Paralell Corpora
  • 自然言語処理

この論文をさがす

抄録

特定分野の文書を翻訳する場合,その分野に特有の専門用語や定型表現の訳語が適切でないと翻訳結果の内容を把握することができない.専門用語や定型表現の訳語は翻訳品質を決める重要な要因であり,それらに関する対訳辞書の構築技術が求められている.本論文は,文対応の付いた対訳コーパスから共起する単語列を対応付けることにより,対訳表現を自動的に抽出する方法を提案する.各言語の単語列が独立して出現する回数とその単語列組が対訳文内に同時に出現する回数から単語列組の対応関係の強さを計算し,対応関係の強い単語列組から順に対訳表現として抽出する.出現回数による閾値を徐々に下げながら計算対象を増やしていく方法により,単語列の組合せ爆発を仰えることができ,高精度で対訳表現を抽出することができる.分野の異なる3種類のコーパスを用いた実験では,閾値が高い場合では100%の適合率で抽出でき,閾値が低下しても80?90%の適合率で対訳表現が抽出できるという結果が得られた.

As for translation in specific fields,technical terms and idiomatic expressions appear frequently,which should be translated appropriately to get comprehensible translation.It is important to find a systematic technique to compile or to augment a translation dictionary for each specific field.This paper proposes a method of extracting translation patterns automatically from parallel corpus.Translation candidates of pairs of Japanese and English word sequences are evaluated by a similarity measure between the sequences defined by their co-occurrence frequency and independent frequency.The pairs of the sequences with higher similarity value are identified in earlier stage.An iterative method with gradual threshold lowering is proposed for preventing combinational explosion and for getting a high quality translation dictionary.The method is tested with parallel corpora of three distinct domains.The result achieved 100% on high threshold,and preserved 80縲鰀90% as the decline of the threshold.

収録刊行物

被引用文献 (34)*注記

もっと見る

参考文献 (9)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ