社会学における職業・産業コーディング自動化システムの活用  [in Japanese] An Automatic Occupation and Industry Coding System in Sociology  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

<p>社会学では,職業や産業は性別や年齢などと同様に重要な変数であるとの認識から,正確を期するために,自由回答で収集したデータを研究者自身によりコードに変換することが多い.これは職業・産業コーディングとよばれるが,大規模調査の場合,膨大な労力と時間がかかる上に,結果における一貫性の問題も存在する.そこで,ルールベース手法と機械学習 (SVM) を適用したコーディング自動化システムを開発した.本システムは,国内・国際標準の職業・産業コードを第 3 位まで予測し,第 1 位の予測コードには,自動コーディング後に人手によるチェックが必要か否かの目安となる3段階の確信度も付与する.現在,本システムは,東京大学社会科学研究所附属社会調査・データアーカイブ研究センター (CSRDA) から Web による利用サービスが試行提供されており,研究目的であれば,だれもが指定された形式の入力ファイルをアップロードして,希望するコードに変換された結果ファイルをダウンロードすることができるようになっている.</p>

<p>In sociology, occupation and industry variables are as important as sexual and age variables. For the purpose of statistical processing, answers collected from open-ended questions in social surveys need to be converted into code, which requires considerable time and effort and often results in inconsistencies in large scale surveys. This work deals with occupation and industry coding. In this work, we develop an automatic system using hand-crafted rules and Support Vector Machines. Our system can assign three candidate codes to an answer and estimates the confidence level of the primary predicted code for each national/international standard code sets. The system has now been released through the website of the Center for Social Research and Data Archives. The user can get the required coding result by uploading the data file in a specific format.</p>

Journal

  • Journal of Natural Language Processing

    Journal of Natural Language Processing 24(1), 135-170, 2017

    The Association for Natural Language Processing

Codes

  • NII Article ID (NAID)
    130006832496
  • NII NACSIS-CAT ID (NCID)
    AN10472659
  • Text Lang
    JPN
  • ISSN
    1340-7619
  • NDL Article ID
    027988252
  • NDL Call No.
    Z21-B168
  • Data Source
    NDL  J-STAGE 
Page Top