正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入
書誌事項
- タイトル別名
-
- Extracting Derivational Patterns based on the Alignment of a Standard Form and its Variant towards the Japanese Morphological Analysis for Noisy Text
この論文をさがす
抄録
マイクロブログ上のテキストでは口語調や小文字化,長音化,ひらがな化,カタカナ化など新聞等で用いられる標準的な表記から逸脱した崩れた表記が多く出現し形態素解析誤りを起こす一因となっている.本研究では,ソーシャルメディア上のテキストから抽出した崩れ表記に対し正規表記を付与した正解データを用いて,文字列アライメントを求め文字列レベルの表記の崩れパタンを自動抽出する.また得られたパタンに基づき,入力文の崩れ表記から正規の表記を展開し形態素ラティスを拡張することで,従来法に比べ多様な崩れパタンの解析を可能とした.実験では,対象とした崩れ表記箇所の解析結果に関して,従来法に比べ約 30% の解析誤りを改善することができた.
収録刊行物
-
- 情報処理学会研究報告. 自然言語処理研究会報告
-
情報処理学会研究報告. 自然言語処理研究会報告 2013 (5), 1-9, 2013-11-07
一般社団法人情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1573105977713904000
-
- NII論文ID
- 110009624065
-
- NII書誌ID
- AN10115061
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles