最大エントロピー法を用いた対訳単語対の抽出 Extracting Bilingual Word Pairs with Maximum Entropy Modeling

この論文にアクセスする

この論文をさがす

著者

    • 佐藤 健吾 SATO KENGO
    • 慶應義塾大学大学院理工学研究科計算機科学専攻 Department of Computer Science, Keio University

抄録

機械翻訳などの多言語間自然言語処理で用いられる対訳辞書は現在, 人手によって作成されることが多い. しかし, 人手による作成には一貫性・網羅性などの点で限界があることから対訳コーパスから自動的に対訳辞書を作成しようとする研究が近年盛んに行われている. 本論文では, 最大エントロピー法を用いて対訳コーパス上に対訳関係の確率モデルを推定し, 自動的に対訳単語対を抽出する手法を提案する. 素性関数として共起情報を用いるモデルと品詞情報を用いるモデルを定義した. 共起情報により対訳関係にある単語の意味を制約し, 品詞情報により対訳関係にある単語の品詞を制約する. 本手法の有効性を示すために日英対訳コーパスを用いた対訳単語対の抽出実験を行い, 本論文で提案した手法が従来の手法よりも精度・再現率において優れた結果となり, また, テストコーパスによる実験では学習コーパスに出現しなかった単語対に関しても学習データに現れたものとほぼ同等の精度・再現率で抽出できることを示した.

Translation dictionaries used in multilingual natural language processing such as machine translation have been made manually, but a great deal of labor is required for this work and it is difficult to keep the description of the dictionaries consistent. Therefore, researches of extracting bilingual word pairs from parallel corpora automatically become active recently. In this paper, we propose a learning and extracting method of bilingual word pairs from aligned parallel corpora with the maximum entropy modeling. We define a probabilistic model of bilingual word pairs and four types of feature functions which express statistical and linguistic properties such as co-occurrence information and morphlogical information. Co-occurrence information restricts the sense of words. Morphlogical information restricts the part-of-speech of words. Experiment results in which Japanese and English parallel corpora are used show that our method performs better than the previous methods and can extract the bilingual word pairs which do not appear in the training corpus with almost the same accuracy as the appeared pairs due to the property of the maximum entropy modeling.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 9(1), 101-115, 2002-01-10 

    一般社団法人 言語処理学会

参考文献:  19件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  1件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021991771
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    6033694
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ