全文検索システム『ひまわり』を利用した言語資料検索環境の構築手法

書誌事項

タイトル別名
  • A method of constructing a retrieval environment for language resources using full-text retrieval system "Himawari"
  • ゼンブン ケンサク システム ヒマワリ オ リヨウシタ ゲンゴ シリョウ ケンサク カンキョウ ノ コウチク シュホウ

この論文をさがす

抄録

国立国語研究所

The National Institute for Japanese Language

現在,新聞・小説などのテキストデータベースや言語研究用に構築されたコーパスなどの言語資料が利用できるようになっている。しかし,言語資料を検索・閲覧するための手段が提供されることは少なく,言語資料が有効に活用されていないという問題がある。本稿の目的は,言語資料を有効に活用するため,全文検索システム『ひまわり』を用いて,言語資料の検索環境を構築する方法を示すことである。特に,検索環境構築時の実際的な事柄(文字コードなど)にも配慮し,既存の言語資料をどのような形式に整形すれば,どのような検索環境が構築できるのかを,実例に基づいて説明する。本稿では,まず,『ひまわり』の機能概要,および,検索能力を説明したのち,それに基づいて,(1)生テキストに近い言語資料,(2)形態素情報が付与された言語資料,(3)画像データと関連づけられた言語資料,の3種類の言語資料に対する検索環境を構築する。

Recently, many language resources, for example, text database of newspapers and novels, have become available for language study. However, these resources often do not have their own retrieval systems. This situation makes it difficult for users to utilize these resources for language study. In this paper, I propose a method of constructing a retrieval and browsing environment for existing language resources, using the full-text retrieval system "Himawari" that can retrieve contents and arguments in XML document under a user-specified condition. This paper describes a practical procedure that converts existing language resources into the XML documents that "Himawari" is able to handle. In the introduction, the functions and the retrieval ability of "Himawari" will be expounded. Then, the retrieval environment will be constructed for three kinds of language resources: 1) a nearly raw text, 2) a text with morphological information, 3) a text related to images (a four-frame comic strip)-i.e., these resources are converted to XML documents. Finally, the usefulness of the environment is demonstrated by showing the efficiency of the tagged information appeared in the search results.

application/pdf

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ