対訳文書からの機械翻訳専門用語辞書作成

書誌事項

タイトル別名
  • Building an MT Technical Term Dictionay from Parallel Texts
  • 自然言語処理

この論文をさがす

抄録

機械翻訳システムのカスタマイズ手段であるユーザ専門用語辞書作成を自動化する目的で、日英対訳コーパスから機械翻訳用専門用語辞書を作成する方法を聞発し評価した。本方法では、(1)目本語文書と英語文書から対応の単位となるユニツトを抽出、(2)日本語ユニットと英語ユニットの対応関係を推定、(3)日本語文章から合成名詞と末知語を専門用語として抽出、(4)専門用語を合む日本語ユニットの対応英語ユニットから訳語侯補を生成、(5)複数の訳語侯補を評価して最も確かなものを選定することで対訳データを作成する。対訳コーパス中の語旬の対応関係の推定には、既存の対訳辞書知識から得られる言語情報とテキスト中の頻度から得られる統計情報を統合して利用した。この2種類の情報を利用することにより、構成語間に直接対話関係のない合成名詞に対する対訳データや未知語に対する対訳データなど、言語情報のみを利用する方法では得られないデータも抽出できた。日英間で文章構成や表現の大きく異なる特許明細書を対象に専門用語辞書の作成実験を行った結果、300文程度の小規模な文書からでも、合成名詞に対する訳語を70%以上の精度で推定できた。未知語の訳語推定は2,000文程度の文書で50%以上の精度が得られた。これまで人手で行っていたユーザ専門用語辞書の作成作業の半分以上を自動化でき、機械翻訳利用の効率を向上した。

収録刊行物

被引用文献 (12)*注記

もっと見る

参考文献 (13)*注記

もっと見る

キーワード

詳細情報 詳細情報について

  • CRID
    1050001337887729152
  • NII論文ID
    110002722860
  • NII書誌ID
    AN00116647
  • ISSN
    18827764
  • Web Site
    http://id.nii.ac.jp/1001/00014073/
  • 本文言語コード
    ja
  • 資料種別
    journal article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ