抄録
大規模テストコレクションNTCIR-2の構築において、正解文書リストは、プーリング法に基づいて作成された。本稿では、NTCIR-2の正解文書リストの作成過程で行なった言語横断的プーリングおよび対話型検索システムを用いた追加検索が、NTCIR-2を使用した検索システムの評価に与える影響をついて考察する。本研究では、NTCIR-2の正解文書リストと、NTCIRワークショップ2の参加チームの提出結果を用いて評価実験を行なった。まず、NTCIR-2の最終的な正解文書リストFと、Fから追加の対話型検索Iだけで見つかった文書を除いたリストF-Iを用いて、提出結果の評価を行なった。次に、各サブタスクごとの提出結果からのプーリングを行ない、このサブタスクごとのプールを正解文書リストとして評価を行なった。結果として、いずれの文書リストを正解文書リストとして提出結果の評価を行なっても、提出結果の相対的な順位はほとんど変化せず、プーリング法に基づいて作成したテストコレクションの信頼性を確かめることができた。
The purpose of this study is to examine whether there is an effect on the relative evaluation of the IR systems using the relevance judgments made by the pooling method and additional interactive searches. We carried out experiments using different lists of relevance judgments and search results submitted for the test of the 2nd NTCIR Workshop. First, we evaluated the search results using the list of the final relevance judgments F of NTCIR-2 and F-I, that is, the F without the unique relevant documents found by the additional interactive searches I. Second, we made pools from the search results for each of the sub-tasks and evaluated the search results using the pools as lists of relevance judgments. Almost the same rankings of the search results were produced by using the pools as lists of relevance judgments for system evaluation. Therefore our results verified the reliability of test collection as an evaluation tool, which was based on pooling method.