抄録
本稿では、多段階レレバンス判定に適応できる新しい情報検索システムの検索有効性評価指標を提案する。検索された文書の検索質問への適合性(レレバンス)判定は、検索有効性評価のもっとも基本的な要素の1つである。検索では、通常、より適合性の高い文書がより早く(より上位のランクで)検索されることが望ましい。しかしながら, 従来、検索有効性を示す精度と再現率は、「適合」「不適合」の二値判定に基づいて算出され、「より適合性が高い」という側面を評価できなかった。テストコレクションを用いる情報検索システムの実験室型評価では、多数の検索を行い、それぞれの評価値を平均することで安定した評価が可能である。そこで、本稿では、既存の検索有効性指標の特性を検討し、それを踏まえ、扱いやすい単一の平均可能な指標として、重み付きR精度と重み付き平均精度を提案し、「高適合」、「適合」、「部分的適合」、「不適合」の4段階レレバンス判定を採用した第2回NTCIRワークショップの日本語検索タスクの提出結果を評価した例をしめす。最後に、多段階レレバンス判定による評価と、利用者指向の検索システム評価との関連にも言及する。
This paper proposes new measures, weighted R precision and wighted average precision, for information retrieval(IR) system testing with ranked output based on multi-grade relevance judgments. Relevance judgments are one of the most fundamental factors in evaluation of search effectiveness of IR systems. Intuitively, the highly relevant documents are more important for users than partial relevant ones and the documents retrieved in the higher ranks in the ranked list are more important. Therefore the systems producing the search results in which higher relevant documents in higher ranks in the ranked list should be rated as better thought relevance judgments must be done in binary to calculate traditional IR system evaluation measures "recall" and "precision". Based on the review of existing IR system evaluation measures, we decided that either of proposed measures is single number and averageable over number of runs. The paper then shows the evaluation results of the Japanese IR task at the second NTCIR Workshop, in which four-grade relevance judgments, highly relevant, relevant, partially relevant, and irrelevant, were used. Finally implications of "partial relevance" are discussed in the relation to user-oriented IR system evaluation studies.