書誌事項
- タイトル別名
-
- Extracting Translation Uninterrupted Collocations from Bilingual Corpora
この論文をさがす
抄録
慣用表現や定型表現は, 連結している個々の単語の訳からその訳をとることは困難である. そのため, 機械翻訳においては, それらの表現をまとめて1単位として処理することが翻訳品質, さらに処理効率の向上につながると考えられている. 本稿では, 2語, 又は3語連なって1つの意味を表す連語の対訳表現を対訳コーパスから自動的に抽出する手法を提案する. 本手法では, 対訳コーパス中の文の対訳関係を前提とせず, コーパス中の単語との共起関係, 及び既存の単語辞書を用いて対訳表現を抽出する. まず, n-gram統計, 及び前後に隣接する単語とのエントロピー値を用いて, 日英それぞれのコーパスから連語表現を抽出する. 次に, 各英語連語に対して共起集合を作成して, 既存の単語辞書を用いて各日本語表現との間の対応度を計算し, 最も高い類似性を示す日本語表現を対訳表現として抽出する. 本手法を対訳新聞記事データに適用した結果, 英語連語1,282表現に対し72.1%の精度で正しい対訳日本語表現を抽出することができた.
収録刊行物
-
- 情報処理学会研究報告. NL,自然言語処理研究会報告
-
情報処理学会研究報告. NL,自然言語処理研究会報告 122 13-20, 1997-11-20
一般社団法人情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1571135652199824768
-
- NII論文ID
- 110002934601
-
- NII書誌ID
- AN10115061
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles