日本語未知語のテキストからの自動獲得  [in Japanese] Automatic Acquisition of Japanese Unknown Words from Text  [in Japanese]

Search this Article

Author(s)

Abstract

日本語の形態素解析は,テキスト中に出現する形態素があらかじめ辞書に登録されていることを前提としており,辞書に登録されていない未知語は解析誤りの原因となっていた.そのため,新たな分野のテキストを解析する際に,あらかじめ人手で形態素を追加する必要があった.この未知語問題を解決するために,我々はテキストから未知語を自動獲得し,人手の介在なしに語彙を増やして形態素解析を行うという研究を行なっている.本稿では未知語の自動獲得の現状と課題を報告する.

In Japanese morphological analysis, it is usually assumed that words in text are listed in a pre-defined dictionary. Errors are often caused by unknown words, or words not found in the dictionary. As a result, we need to register new words to the dictionary in advance every time we are to process texts from a new domain. To address this problem, we are working on a framework where unknown words are automatically acquired from text and added to the dictionary without manual supervision. In this paper, we report recent progress and remaining problems in unknown word acquisition.

Journal

  • IEICE technical report

    IEICE technical report 111(119), 37-42, 2011-06-30

    The Institute of Electronics, Information and Communication Engineers

References:  20

Codes

  • NII Article ID (NAID)
    110008800944
  • NII NACSIS-CAT ID (NCID)
    AN10091225
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    11199732
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top