クラウドソーシングを用いたレガシーオープンデータの機械可読化 (人工知能と知識処理) Making Legacy Open Data Machine Readable by Crowdsourcing

この論文をさがす

著者

抄録

多くの国々においてオープンデータめ取組みが進んでおり,様々な統計データが行政等によって公開されている.しかしこれらのデータは画像やPDFの形式で与えられるものが少なくなく,分析やサービスの開発などでの再利用を妨げている.そこで,クラウドソーシングを用いて,画像として与えられたレガシーな統計データを機械可読な表形式に変換する枠組みを提案する.その際,作業者に表だけを作成させるのではなく,画像をスプレッドシート上でグラフとして視覚的に再現させるタスク設計を行った.このタスク設計により,データの誤りに気付き易くなる効果に加えて,再現されたグラフオブジェクトのプロパティとして項目名や系列といったデータの構造を容易に取り出し,作業結果の統合や品質管理に利用することが可能となる.国土交通省が公開している観光白書を対象に評価実験を行い,提案手法の有効性を検証した.

Despite recent open data initiatives in many countries, not a few of those countries provide the data in non-machine-readable formats like an image format rather than in a machine-readable electronic format, thereby restricting their usability. An approach is described for converting legacy statistical data in an image format into a machine-readable and reusable format by using crowdsourcing. Requesting crowd workers not only to extract tables from graph images but also to reconstruct them in spreadsheets can reduce the number of errors compared to simple extraction and, at the same time, produces structures including attribute names and values as properties of the reconstructed graph objects. Experimental results using the White Paper on Tourism published by the Japan Tourism Agency demonstrated that the proposed approach is effective.

収録刊行物

  • 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(181), 1-6, 2014-08-20

    一般社団法人電子情報通信学会

各種コード

  • NII論文ID(NAID)
    110009946826
  • NII書誌ID(NCID)
    AN10013061
  • 本文言語コード
    JPN
  • ISSN
    0913-5685
  • NDL 記事登録ID
    025768514
  • NDL 請求記号
    Z16-940
  • データ提供元
    NDL  NII-ELS 
ページトップへ