聖教書誌情報全文検索システムの構築

Bibliographic Information

Other Title
  • セイキョウ ショシ ジョウホウ ゼンブン ケンサク システム ノ コウチク
  • Full-text Search System for Bibliographic Data of Ancient Documents

Search this article

Abstract

寺院に所蔵されている様々な文書や典籍(聖教)において,その奥書には書写・伝授などの由来が記録されており,人文研究者にとっては,聖教の形成や当時の人間関係など様々な歴史的事象を知る手がかりとなる.そのような研究を支援するため,全文検索エンジンHyper Estraierを用いた書誌情報検索システムを試作した.登録した聖教情報は,7種類の出典目録から合わせて44 135件である.検索語入力の手間や入力ミスといった問題を解消するため,検索結果においてキーワードを強調表示し,そのキーワードで検索できるようにした.そのためにまず,聖教情報に含まれるキーワード6 690個の機械的抽出を行った.年代情報および人物名は,候補となる文字列を生成・抽出して全文検索に問い合わせ,出現するものをキーワードとした.寺院情報および地名に対しては,「寺」「国」などの接尾辞に着目してテキストマイニングを行った.キーワードは関係データベースに登録し,任意のテキストデータに対して該当するキーワードの位置を効率良く求められるようにした.120件の聖教情報に対してキーワード検出を試みたところ,適合率・再現率とも90%を超え,十分な実用性を確認した.

Ancient documents and scriptures in the temples provide a clue to the clarification of various historical phenomena such as their background and the human relationships, due to the colophons and other bibliographic elements. We constructed a document retrieval system powered by the full-text search engine Hyper Estraier, where 44,135 records are registered. To discharge the problems of time-consuming or error-prone input of search terms, we improved the search interface so that the users can see the resulting documents with the keywords highlighted for further search. For that purpose, we found 6,690 keywords in bibliographic data. The words about eras and persons were produced or extracted and subsequently filtered through the full-text search. Those about temples and places were obtained by a text-mining approach aiming at the suffix characters. The keywords are stored in a relational database apart from the full-text index. Using the database, we implemented the feature of calculating the position of the keywords for a given string efficiently. The experiment showed that the precision and the recall of the detected keywords on 120 bibliographic documents were greater than 90%.

Journal

Citations (1)*help

See more

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top