Support Vector Machineを用いた日本語固有表現抽出

書誌事項

タイトル別名
  • Support Vector Machine オ モチイタ ニホンゴ コユウ ヒョウゲン チュウシュツ
  • Japanese Named Entity Extraction Using Support Vector Machine
  • 自然言語処理

この論文をさがす

抄録

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.

In this paper, we propose a method for Japanese named entity (NE)extraction using Support Vector Machines (SVM). The generalizationperformance of SVM does not depend on the size of dimensions of thefeature space, even in a high dimensional feature space, such as namedentity extraction task using lexical entries, part-of-speech tags andcharacter types of words as the primitive features. Furthermore, SVMcan induce an optimal classifier which considers the combination offeatures by virtue of polynomial kernel functions. We apply the methodto IREX NE task using CRL Named Entities data. The cross validationresult of the F-value being 83 shows the effectiveness of the method.

収録刊行物

被引用文献 (37)*注記

もっと見る

参考文献 (16)*注記

もっと見る

キーワード

詳細情報

問題の指摘

ページトップへ