FLOBコーパスの意味構造 : 確率論的トピックモデルによる言語使用域の特徴付け

DOI HANDLE オープンアクセス

書誌事項

タイトル別名
  • The Semantic Structure of the FLOB Corpus : Using Probabilistic Topic Models for Corpus Description
  • FLOB コーパス ノ イミ コウゾウ カクリツロンテキ トピック モデル ニ ヨル ゲンゴ シヨウイキ ノ トクチョウ ヅケ

抄録

テクストマイニングとデジタルヒューマニティーズ

本稿では,機械学習ツールキットのMALLETを用いて, LDAを実行することにより生成されたトピックモデルが,FLOB コーパスのサプコーパスとなっている15のレジスターおよび下位の標本テクストに内在する意味構造をどの程度適切に抽出しうるかを検討する。まず,生成された個々のトピックモデルの解釈を試み,それら各トピックがFLOBコーパスの各言語使用域の標本テクストとどのように結びついているかを考察する。トピックを構成するword clusters リスト,ネットワークグラフ,ワードクラウド,使用域毎のトピック密度グラフなどによる視覚化を行うことで,トピックモデリングがコーパスの局所的な特徴抽出,記述に有効であることを示す。マクロ的な視点からは,FLOB コーパスにおける言語使用域のクラスタリング,トピックのクラスタリングをヒートマップの形で要約し,構築されたトピックモデルがFLOBコーパスの標本テクストの特徴付け,潜在的意味構造の発見に寄与するということを明らかにする。

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1390290699785170176
  • NII論文ID
    120006319149
  • DOI
    10.18910/62075
  • HANDLE
    11094/62075
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ