日本語における機能フレーズを特徴量とした著者識別

書誌事項

タイトル別名
  • Author identification using function phrases as stylometric features in Japanese
  • ニホンゴ ニ オケル キノウ フレーズ オ トクチョウリョウ ト シタ チョシャ シキベツ

この論文をさがす

抄録

<p> 著者識別の分野では様々な特徴量が提案されている.例えば,日本語においては形態素の使用率,助詞の分布,タグのn-gram,文節パターンなどが著者の識別に有効であることが実証された.これらの特徴量は単語,品詞と文節を基本単位として集計したものであるため,著者が慣用的に使用する表現パターンを分析することが困難である.そこで,本稿では著者が慣用的に使用する表現パターン「機能フレーズ」を特徴量として提案し,著者識別における有効性を検証する.本稿では,著者20 名の計400 編の文学作品のコーパスを作成し,既存の特徴量(形態素,タグのbigram,助詞の分布,文節のパターン)と比較分析を行った.その結果, 提案した特徴量には,既存の特徴量に含まれていない著者の文体特徴が含まれており,著者識別に有効であることが実証された.</p>

収録刊行物

参考文献 (5)*注記

もっと見る

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ