抄録
単一あるいは異なる情報源の間で重複するレコードを見つけ出す「レコード同定」は, データベースの品質管理やデータ統合に必須の技術である.しかしながら, このレコード間の照合は一般に容易には実現できない.というのも多くの場合, レコード同士は統一的な識別子をもたず, レコードの属性や値の間にも厳密な対応関係が存在しないためである.特に, 長期間にわたり分散化した環境のもとで構築された大規模なデータベースにおいて, 信頼性高くレコードを同定することはコストのかかる困難な作業となる.そこで本論文では, 重複レコードを検出するためのレコード同定手法に注目し, 研究動向を概観する.