構造化された言語資料に対する全文検索システムの設計と実現  [in Japanese] Design and Implementation of Full Text Search System for Structured Language Resources  [in Japanese]

Access this Article

Author(s)

    • 田中 牧郎 TANAKA MAKIRO
    • 独立行政法人国立国語研究所 Independent Administrative Institute: The National Institute for Japanese Language

Abstract

本論文では, 構造化された言語資料の検索・閲覧を指向した全文検索システムである『ひまわり』の設計, および, その実現方法を示す.ここで言う「構造化された言語資料」とは, コーパスや辞書のように, 言語に関する調査, 研究などに利用することを目的として, 一定の構造で記述された資料一般を指す.『ひまわり』は, 言語資料の構造化形式の多様性と利用目的の多様性に対応した設計がなされている.構造化形式の多様性については, 言語資料がXMLで構造化されていることを想定して, XML文書に対する全文検索機能を実現した.全文検索に付け加えて, マークアップされている情報の抽出や抽出された情報に基づく検索結果の制約を行うことも可能である.また, Suffix Arrayなどの索引を用いて, 検索の高速化を図っている.一方, 言語資料に適した検索式と閲覧形式を柔軟に定義できるようにすることにより, 利用目的の多様性に対処した.閲覧形式は, KWIC表示機能を備えた表形式での閲覧を基本とし, ルビなどの通常のテキストでは表現できない表示形式や音声, 画像に対しては, XSL変換などを介して外部閲覧システムにデータを受け渡す方法を用いる.多様性にする『ひまわり』の有効性を検証するために, 『分類語彙表』, および, 『日本語話し言葉コーパス』に『ひまわり』を適用し, 定性的な評価を行うとともに, 検索速度測定による定量的な評価を行った.

In this paper, we design and implement a full text search system “Himawari”.Himawari is designed to handle various structures and usages of language resources that are made to be used for language study and research.For the variety of structure, Himawari has the ability to search language resources structured by XML, extracting tagged information that may be used to constrain the results.Himawari provides some kind of indexes such as Suffix Array for the improvement of the search process. To resolve the problem of the variety of usages, a query and a method of reference for language resources can be defined by a user as suitable for the target language resource.Search results are displayed as a table including KWIC(Key Word In Context), and can be output to external reference system, for example, HTML browser, sound player, when the result is not able to be displayed as text data.By applying our system to a Japanese thesaurus “Bunrui Goi Hyo” and “Corpus of Spontaneous Japanese”, the adaptability for the varieties is verified and proved.

Journal

  • Journal of Natural Language Processing

    Journal of Natural Language Processing 12(4), 55-77, 2005

    The Association for Natural Language Processing

Codes

  • NII Article ID (NAID)
    130004101393
  • Text Lang
    JPN
  • ISSN
    1340-7619
  • Data Source
    J-STAGE 
Page Top