抄録
近年、漢字仏教文献をNグラムモデルによって分析する方法が成果をあげつつある。しかしながらこの方法は、文字の同定などの本質的な部分において文字コードに依存しているのが課題であった。本稿では、筆者が開発に参加しているCHISEプロジェクトの文字データベースと文字処理システムを用いて、文字コードに依存しないNグラム処理の試みについて報告する。
In recent years, statistical analysis of Chinese Buddhist classics using N-gram model is getting a result. However, it has not been solved that N-gram processing, such as identification of a character, is essentially dependent on a character code sets. In this paper, I would like to report a test implementation of N-gram processing independent of any character code sets, using the character database and character processing system of CHISE project which I have participated in development.