統計的手法による辞書未登録語の獲得法 Detection Method of Unregistered Words Boundaries Based on the Statistical Analysis

この論文をさがす

著者

抄録

統計的手法により辞書に未登録な語をテキストデータから獲得する手法を提案する.近年, WWWやネットニュースなどのテキストデータを処理する機会が増えている.ところが日本語の場合分かち書きの習慣がないため, まず形態素解析を行わなければならない.このときの問題に未知語の問題がある.ここでは, 多量のテキストデータから得られる統計情報のみを用いて分かち書きを行い辞書未登録語を獲得する方法について述べる.本手法は, 任意の文字列の頻度を正規化する過程, 得られた正規化頻度を用いて語の境界を決定する過程よりなる.評価実験では形態素解辞書の漢字未登録語の獲得能力を調べた.その結果約43%の辞書未登録語の獲得ができることが確認され, 本手法の有効性が示された.

収録刊行物

  • 電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理

    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 00081(00002), 238-248, 1998-02-25

    一般社団法人電子情報通信学会

参考文献:  18件中 1-18件 を表示

被引用文献:  1件中 1-1件 を表示

各種コード

  • NII論文ID(NAID)
    110003227722
  • NII書誌ID(NCID)
    AN1007132X
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09151923
  • NDL 記事登録ID
    4413298
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-1853
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS 
ページトップへ