書誌事項
- タイトル別名
-
- Word Identification in Early Middle Japanese Using Collocation Strength
- コロケーション キョウド オ モチイタ チュウコゴ ノ ゴ ニンテイ
この論文をさがす
抄録
国立国語研究所 コーパス開発センター 非常勤研究員
Adjunct Researcher, Center for Corpus Development, National Institute for Japanese Language and Linguistics
中古和文において,どこからどこまでを一語と認めるかという語認定には,従来明確な尺度がなく,既存の辞書の見出し語をあたっても,立項基準は感覚的・主観的なものであると言わざるを得ない。語と語の結びつきの強さ(コロケーション強度)を具体的な数値で示すダイス係数を取り上げ,「名詞+あり/なし/よし/あし」の組み合わせを例に,語認定の一つの客観的基準として,ダイス係数が有効であることを論じた。
It has long been a serious problem for researchers of Early Middle Japanese to determine whether a set phrase like kai-nashi should be classified as one word or a combination of separate words. There is no definite criterion, and some phrases are listed in dictionaries as a word while others are neglected, all depending on the judgment of the editor. In this paper, the Dice coefficient is introduced as a solution. The Dice coefficient is an index for estimating collocation strength, i.e., how strongly two words are connected with each other. In combination with a morphological analysis dictionary (Chuko-Wabun UniDic), the Dice coefficient works as one criterion for word identification.
application/pdf
収録刊行物
-
- 国立国語研究所論集 = NINJAL Research Papers
-
国立国語研究所論集 = NINJAL Research Papers 2 91-106, 2011-11
国立国語研究所
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390009224767858816
-
- NII論文ID
- http://ci.nii.ac.jp/naid/KJ00008490057
- 110009576084
-
- NII書誌ID
- AA12536262
-
- ISSN
- 2186134X
- 21861358
-
- NDL書誌ID
- 023685773
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- IRDB
- NDL
- CiNii Articles
- KAKEN