単語属性N-gramと統計的機械学習による質問タイプ同定

書誌事項

タイトル別名
  • タンゴ ゾクセイ N gram ト トウケイテキ キカイ ガクシュウ ニ ヨル シツモン タイプ ドウテイ
  • Question Type Classification Using Word Attribute N-gram and Statistical Machine Learning
  • 自然言語

この論文をさがす

抄録

質問タイプ同定とは,自然文で与えられた質問文の意図を同定する技術である.この技術は,ユーザからの要求意図を正しく理解するために必須であり,質問応答,対話,情報検索/抽出等関連する様々なアプリケーションに広く適用可能である.精度の良い質問タイプ同定を実現するためには,質問文中の多種多様な言語表現から質問タイプ同定に有効な特徴を抽出することと,抽出された様々な特徴から最適な質問タイプ同定器を構築することが必要となる.本論文では,質問タイプ同定のための特徴を単語属性 $N$-gramにより抽出する手法を提案し,この単語属性 N-gramと機械学習手法Support Vector Machine(SVM)とを組み合わせた質問タイプ同定手法を提案する.質問文10 000問を用いた評価実験により既存手法との比較を行い,提案手法の有効性を実証した.さらに,単語属性 N-gramにより抽出された素性を解析した結果についても報告する.

Question type classification attempts to identify the intention of a given question.The approach to high performance question classification typically yields an extremely large number of features because question types are well featured by the structures of the word attributes inside the questions.We propose a technique for finding ``word attribute N-gram'' to extract effective features for question type classification, and then, we use these features with machine learning technique, Support Vector Machines (SVM), to create a high performance question type classifier.Results of question type classification experiments using 10,000 question samples showed much higher performance than the other conventional methods.Moreover, we clarify the performance of a feature extraction method and the effective features of each question type.

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (32)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ