正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入

書誌事項

タイトル別名
  • Extracting Derivational Patterns based on the Alignment of a Standard Form and its Variant towards the Japanese Morphological Analysis for Noisy Text

この論文をさがす

抄録

マイクロブログ上のテキストでは口語調や小文字化,長音化,ひらがな化,カタカナ化など新聞等で用いられる標準的な表記から逸脱した崩れた表記が多く出現し形態素解析誤りを起こす一因となっている.本研究では,ソーシャルメディア上のテキストから抽出した崩れ表記に対し正規表記を付与した正解データを用いて,文字列アライメントを求め文字列レベルの表記の崩れパタンを自動抽出する.また得られたパタンに基づき,入力文の崩れ表記から正規の表記を展開し形態素ラティスを拡張することで,従来法に比べ多様な崩れパタンの解析を可能とした.実験では,対象とした崩れ表記箇所の解析結果に関して,従来法に比べ約 30% の解析誤りを改善することができた.

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1573105977713904000
  • NII論文ID
    110009624065
  • NII書誌ID
    AN10115061
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ