構造化された言語資料に対する全文検索システムの設計と実現 Design and Implementation of Full Text Search System for Structured Language Resources

この論文にアクセスする

著者

    • 田中 牧郎 TANAKA MAKIRO
    • 独立行政法人国立国語研究所 Independent Administrative Institute: The National Institute for Japanese Language

抄録

本論文では, 構造化された言語資料の検索・閲覧を指向した全文検索システムである『ひまわり』の設計, および, その実現方法を示す.ここで言う「構造化された言語資料」とは, コーパスや辞書のように, 言語に関する調査, 研究などに利用することを目的として, 一定の構造で記述された資料一般を指す.『ひまわり』は, 言語資料の構造化形式の多様性と利用目的の多様性に対応した設計がなされている.構造化形式の多様性については, 言語資料がXMLで構造化されていることを想定して, XML文書に対する全文検索機能を実現した.全文検索に付け加えて, マークアップされている情報の抽出や抽出された情報に基づく検索結果の制約を行うことも可能である.また, Suffix Arrayなどの索引を用いて, 検索の高速化を図っている.一方, 言語資料に適した検索式と閲覧形式を柔軟に定義できるようにすることにより, 利用目的の多様性に対処した.閲覧形式は, KWIC表示機能を備えた表形式での閲覧を基本とし, ルビなどの通常のテキストでは表現できない表示形式や音声, 画像に対しては, XSL変換などを介して外部閲覧システムにデータを受け渡す方法を用いる.多様性にする『ひまわり』の有効性を検証するために, 『分類語彙表』, および, 『日本語話し言葉コーパス』に『ひまわり』を適用し, 定性的な評価を行うとともに, 検索速度測定による定量的な評価を行った.

In this paper, we design and implement a full text search system “Himawari”.Himawari is designed to handle various structures and usages of language resources that are made to be used for language study and research.For the variety of structure, Himawari has the ability to search language resources structured by XML, extracting tagged information that may be used to constrain the results.Himawari provides some kind of indexes such as Suffix Array for the improvement of the search process. To resolve the problem of the variety of usages, a query and a method of reference for language resources can be defined by a user as suitable for the target language resource.Search results are displayed as a table including KWIC(Key Word In Context), and can be output to external reference system, for example, HTML browser, sound player, when the result is not able to be displayed as text data.By applying our system to a Japanese thesaurus “Bunrui Goi Hyo” and “Corpus of Spontaneous Japanese”, the adaptability for the varieties is verified and proved.

収録刊行物

  • 自然言語処理

    自然言語処理 12(4), 55-77, 2005

    一般社団法人 言語処理学会

各種コード

  • NII論文ID(NAID)
    130004101393
  • 本文言語コード
    JPN
  • ISSN
    1340-7619
  • データ提供元
    J-STAGE 
ページトップへ