『現代日本語書き言葉均衡コーパス』新聞記事情報を用いたジャンル別語彙分布

DOI 機関リポジトリ オープンアクセス

書誌事項

タイトル別名
  • The Lexical Distribution by the Topic annotation data on the Newspaper Articles in the Balanced Corpus of Contemporary Written Japanese

抄録

Mejiro University

National Institute for Japanese Language and Linguistics

会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター

コーパスに付与されたジャンル情報を用いることにより,ジャンル毎の語彙分布の傾向が確認される。しかし,レジスタによる文体差の影響や,ジャンルの分類基準の問題が考えられる。そこで,本稿は,文章内容情報が付与された文体的な影響の少ないコーパスを用い,品詞分布・語彙分布・語義分布に内容別の傾向が見られることを確認する。具体的には,『現代日本語書き言葉均衡コーパス』の新聞サブコーパス(PN,1,473サンプル)に含まれるサンプルを記事単位(5,585記事)に分割し,記事ごとの内容情報や種別情報を付与した(加藤ほか2020)データを用いる。分類語彙表番号の付与されたBCCWJ-WLSP(加藤ほか2019)と重ね合わせることにより語義分布も調査する。

source:https://ccd.ninjal.ac.jp/lrw2021.html

identifier:目白大学

identifier:国立国語研究所

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ