書誌事項
- タイトル別名
-
- The Semantic Structure of the FLOB Corpus : Using Probabilistic Topic Models for Corpus Description
- FLOB コーパス ノ イミ コウゾウ カクリツロンテキ トピック モデル ニ ヨル ゲンゴ シヨウイキ ノ トクチョウ ヅケ
抄録
テクストマイニングとデジタルヒューマニティーズ
本稿では,機械学習ツールキットのMALLETを用いて, LDAを実行することにより生成されたトピックモデルが,FLOB コーパスのサプコーパスとなっている15のレジスターおよび下位の標本テクストに内在する意味構造をどの程度適切に抽出しうるかを検討する。まず,生成された個々のトピックモデルの解釈を試み,それら各トピックがFLOBコーパスの各言語使用域の標本テクストとどのように結びついているかを考察する。トピックを構成するword clusters リスト,ネットワークグラフ,ワードクラウド,使用域毎のトピック密度グラフなどによる視覚化を行うことで,トピックモデリングがコーパスの局所的な特徴抽出,記述に有効であることを示す。マクロ的な視点からは,FLOB コーパスにおける言語使用域のクラスタリング,トピックのクラスタリングをヒートマップの形で要約し,構築されたトピックモデルがFLOBコーパスの標本テクストの特徴付け,潜在的意味構造の発見に寄与するということを明らかにする。
収録刊行物
-
- 言語文化共同研究プロジェクト
-
言語文化共同研究プロジェクト 2016 5-21, 2017-05-31
大阪大学大学院言語文化研究科
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390290699785170176
-
- NII論文ID
- 120006319149
-
- DOI
- 10.18910/62075
-
- HANDLE
- 11094/62075
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- IRDB
- CiNii Articles
- KAKEN