共同執筆コンテンツにおける単語の起源追跡

Bibliographic Information

Other Title
  • Provenance Tracking of Terms in Collaborative Authoring Systems

Search this article

Abstract

現在,Web上にはWikipediaを代表としたコラボレーションプラットフォームが多数存在する.本論文では,版管理された共同執筆型のコンテンツに対して,記述の起源を追跡する手法を提案する.不特定多数の編集者がコンテンツの編集に関与するWikiシステムや,ソフトウェアの共同開発を前提としたコード管理システムにおいて,記述の正確な起源の特定は重要である.実際に,Wikipediaにおける編集者や記事の質推定などのように,記述の起源を利用した研究や応用アプリケーションがすでに存在する.しかし,記述に対する正確な起源の付与は,記述の復元を考慮する必要があるため容易ではない.なぜならば,記述が復元された場合,削除以前の記述の起源を参照する必要があるからである.既存手法では,小さな粒度の記述の復元を検出することは困難であった.そこで,本研究では削除された記述の位置を保持したまま管理することによって,小さな粒度での復元を厳密に検出し,記述の起源を正確に推定する.評価実験ではWikipedia日本語版において,人手により特定した186件の単語の起源とシステムの推定した起源との照合を行った.その結果,提案手法の正解率は86.0%となり,既存手法と比較して24.7ポイントの精度向上を確認することができた.

Numerous collaboration platforms on the Web are used in order to share and edit documents or source code. We propose a method of provenance tracking for collaborative authoring systems having revisioned contents such as Wiki systems or code management systems. Accurate provenance of each text is important and have potential applications. Actually, studies and applications utilizing provenance already exist, such as a study of measuring quality in Wikipedia. However, attributing accurate provenance to texts is difficult because of restoration. Provenance of restored text should refer to provenance of the text before deletion. Restoration detection of small granularity like a term level is difficult for existing techniques. Our proposed method manages provenance with keeping positions of deleted terms to detect small granularity restoration strictly, and to track provenance exactly. In evaluation experiment, we used 186 article-term sets chosen at random from Japanese Wikipedia as a dataset. We compared provenance determined by systems and true provenance manually labeled by observers. As a result, accuracy of our proposed method is 86.0% on this dataset, and outperforms accuracy of the state-of-the-art algorithm with increases of 24.7 points.

Journal

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top