この論文を読む/探す
抄録
現在大量の機械可読文章(コーパス)が存在している.中でも,新聞は現代社会の大量情報の流通媒体であるため,検索需要が多い.これらの新聞記事の中から必要とする情報を検索するために,従来はキーワードや日付を組み合わせた検索式による検索が主に用いられてきた.いま,ある検索式を用いて必要とする情報を含む記事を見つけることができたとする.さらにその記事に関連する記事の検索を考えると,関連記事を機械的に検索することはできないので,再度,検索式を用いて検索する.この場合,必要としている情報を有する記事だけに適切に絞りこむには限界がある.また適当な検索式そのものを作成できない場合もある.そこで,本研究では着目している記事に関連する記事を効率良く検索すること,ならびに関連性を基準として記事を順序付けするための一手法を提案する.関連した研究としては[1][2]などの類似用例検索があるが,新聞記事のような大量のテキストを対象とした研究はなされていない.また大量のテキストを対象としたテキスト分類の研究として[3][4]などがある.類似テキスト検索の手法としてはいくつかのアプローチがあるが,[1][2]では共にシソーラスを用いている.また,[3]においてはシソーラスを使用してテキストの特徴ベクトルを作成し,関連性の指標としている.[4]においてはテキスト分類を2つの方法,シソーラスを用いた特徴ベクトルと単語間共起による特徴ベクトルを用いてそれぞれ実験している.その結果,精度の点においてシソーラスよりも単語間共起を用いた場合のほうが,良い結果が得られたと報告されている.本研究では,新聞記事における名詞に着目し,名詞を中心とした単語共起頻度を用いて記事間の関連度を評価する一手法を考案し実験を行った.