コロケーション強度を用いた中古語の語認定

書誌事項

タイトル別名
  • Word Identification in Early Middle Japanese Using Collocation Strength
  • コロケーション キョウド オ モチイタ チュウコゴ ノ ゴ ニンテイ

この論文をさがす

抄録

国立国語研究所 コーパス開発センター 非常勤研究員

Adjunct Researcher, Center for Corpus Development, National Institute for Japanese Language and Linguistics

中古和文において,どこからどこまでを一語と認めるかという語認定には,従来明確な尺度がなく,既存の辞書の見出し語をあたっても,立項基準は感覚的・主観的なものであると言わざるを得ない。語と語の結びつきの強さ(コロケーション強度)を具体的な数値で示すダイス係数を取り上げ,「名詞+あり/なし/よし/あし」の組み合わせを例に,語認定の一つの客観的基準として,ダイス係数が有効であることを論じた。

It has long been a serious problem for researchers of Early Middle Japanese to determine whether a set phrase like kai-nashi should be classified as one word or a combination of separate words. There is no definite criterion, and some phrases are listed in dictionaries as a word while others are neglected, all depending on the judgment of the editor. In this paper, the Dice coefficient is introduced as a solution. The Dice coefficient is an index for estimating collocation strength, i.e., how strongly two words are connected with each other. In combination with a morphological analysis dictionary (Chuko-Wabun UniDic), the Dice coefficient works as one criterion for word identification.

application/pdf

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ