固有表現抽出のためのSVMの高速化 Speeding up Support Vector Machines for Named Entity Recognition

この論文にアクセスする

この論文をさがす

著者

    • 磯崎 秀樹 ISOZAKI HIDEKI
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories Nippon Telegraph and Telephone Corporation
    • 賀沢 秀人 KAZAWA HIDETO
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories Nippon Telegraph and Telephone Corporation

抄録

サポートベクトルマシン(SVM)は新しい高性能な学習手法である.しかし,従来手法より分類処理速度が桁違いに遅いことが知られている.本論文では,まずSVMを用いた固有表現抽出方法が既存手法より高精度であることを実験により示す.固有表現抽出は,地名・人名・組織名・日時などの固有表現を文書から抜き出す技術であり,情報抽出システムや質問応答システムなどの重要な基礎技術である.次に,固有表現抽出のデータの特徴を生かして,処理速度を大幅に改善するアルゴリズムを提案する.このアルゴリズムは,自然言語処理における他の様々なタスクに応用可能であると考えられる.The Support Vector Machine (SVM) is a powerful new machine learning method.However, it is well known that its classification speed isorders-of-magnitude slower than conventional systems.First, we show that a Named Entity (NE) recognizerbased on SVMs gives better scores thanconventional systems.Named Entity recognition is a task in whichproper nouns and numerical information are extracted from documents andare classified into categories such as person, organization, and date.It is a key technology of Information Extraction andOpen-Domain Question Answering.Then, we present an algorithm that makes the system substantially fasterby exploiting characters of NE data.This algorithm will be applicable to other different tasks inNatural Language Processing.

The Support Vector Machine (SVM) is a powerful new machine learning method. However, it is well known that its classification speed is orders-of-magnitude slower than conventional systems. First, we show that a Named Entity (NE) recognizer based on SVMs gives better scores than conventional systems. Named Entity recognition is a task in which proper nouns and numerical information are extracted from documents and are classified into categories such as person, organization, and date. It is a key technology of Information Extraction and Open-Domain Question Answering. Then, we present an algorithm that makes the system substantially faster by exploiting characters of NE data. This algorithm will be applicable to other different tasks in Natural Language Processing.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 44(3), 970-979, 2003-03-15

    一般社団法人情報処理学会

参考文献:  43件中 1-43件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110002765076
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    6492691
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ