共起関係を利用した対訳コーパスからの連語の対訳表現抽出

  • 大森 久美子
    慶應義塾大学大学院 理工学研究科 計算機科学専攻
  • 佐藤 健吾
    慶應義塾大学大学院 理工学研究科 計算機科学専攻
  • 中西 正和
    慶應義塾大学大学院 理工学研究科 計算機科学専攻

書誌事項

タイトル別名
  • Extracting Translation Uninterrupted Collocations from Bilingual Corpora

この論文をさがす

抄録

慣用表現や定型表現は, 連結している個々の単語の訳からその訳をとることは困難である. そのため, 機械翻訳においては, それらの表現をまとめて1単位として処理することが翻訳品質, さらに処理効率の向上につながると考えられている. 本稿では, 2語, 又は3語連なって1つの意味を表す連語の対訳表現を対訳コーパスから自動的に抽出する手法を提案する. 本手法では, 対訳コーパス中の文の対訳関係を前提とせず, コーパス中の単語との共起関係, 及び既存の単語辞書を用いて対訳表現を抽出する. まず, n-gram統計, 及び前後に隣接する単語とのエントロピー値を用いて, 日英それぞれのコーパスから連語表現を抽出する. 次に, 各英語連語に対して共起集合を作成して, 既存の単語辞書を用いて各日本語表現との間の対応度を計算し, 最も高い類似性を示す日本語表現を対訳表現として抽出する. 本手法を対訳新聞記事データに適用した結果, 英語連語1,282表現に対し72.1%の精度で正しい対訳日本語表現を抽出することができた.

収録刊行物

被引用文献 (5)*注記

もっと見る

参考文献 (10)*注記

もっと見る

詳細情報 詳細情報について

  • CRID
    1571135652199824768
  • NII論文ID
    110002934601
  • NII書誌ID
    AN10115061
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ