機械学習とルールベースによる職業コーディング(テキスト検索,分類)  [in Japanese] Occupation Coding with Machine Learning and Hand-Grafted Rules  [in Japanese]

Abstract

社会調査において自由回答で収集される職業データの分類(職業コーディング)に対し,機械学習手法の一つであるサポートベクターマシン(Support Vector Machine. SVM)によるアプローチ及び既存のルールベース手法との混合方法について検討する.従来,職業コーディングは人手により行われてきたが,作業量の多さや煩雑さの問題があり,また,熟練していないコーダの処理結果には一貫性が欠ける傾向があった.これらの理由から,ルールベース手法により職業コーディングを自動的に行うシステムが開発され,利用されるようになってきたが,システムの正解率は高いとはいえず,また,ルールベース手法に固有な問題から,現在の値以上にすることは困難であると思われる.そこで,本稿では,機械学習の一つで分類性能が高いとされるSVMを適用しリレールベース手法との比較を行った.さらに,SVMとルールベース手法との有効な組み合わせ方を検討した結果,SVMはルールベース手法より正解率が高く,両者を組み合わせることでさらに正解率を高めることができることを確認した.

We apply a machine learning method to the occupation coding, which is a task to categorize the answers to open-ended questions regarding the respondent's occupation. Specifically, we use Support Vector Machines (SVMs) and their combination with hand-crafted rules. Conducting the occupation coding manually is expensive and sometimes leads to inconsistent coding results when the coders are not experts of the occupation coding. For this reason, a rule-based automatic method has been developed and used. However, its categorization performance is not satisfiable. Therefore, we adopt SVMs, which show high performance in various fields, and compare it with the rule-based method. We also investigate effective combination methods of SVMs and the rule-based method. We empirically show that SVMs outperform the rule-based method in the occupation coding and that the combination of the two methods yields an even better accuracy.

Journal

IPSJ SIG Notes   [List of Volumes]

IPSJ SIG Notes 2004(1), 53-60, 2004-01-13  [Table of Contents]

Information Processing Society of Japan (IPSJ)

References:  20

You must have a user ID to see the references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Cited by:  1

You must have a user ID to see the cited references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Preview

Preview

Codes

  • NII Article ID (NAID) :
    110002911665
  • NII NACSIS-CAT ID (NCID) :
    AN10115061
  • Text Lang :
    JPN
  • Article Type :
    Journal Article
  • ISSN :
    09196072
  • NDL Article ID :
    6850460
  • NDL Source Classification :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No. :
    Z14-1121
  • Databases :
    CJP  CJPref  NDL  NII-ELS 

Share