〈共同研究プロジェクト紹介〉萌芽・発掘型 : テキストの多様性を捉える分類指標の策定 書籍サンプルの文体を分類する

書誌事項

タイトル別名
  • Classifying Writing Styles of Book Samples
  • 共同研究プロジェクト紹介 萌芽・発掘型 : テキストの多様性を捉える分類指標の策定 書籍サンプルの文体を分類する
  • キョウドウ ケンキュウ プロジェクト ショウカイ ホウガ ・ ハックツガタ : テキスト ノ タヨウセイ オ トラエル ブンルイ シヒョウ ノ サクテイ ショセキ サンプル ノ ブンタイ オ ブンルイ スル

この論文をさがす

抄録

国立国語研究所言語資源研究系

文体研究などへのコーパスの有効活用を図るため,コーパスの書籍サンプルを文体によって特徴づけることを目的に,書籍サンプルの分類指標の設計と付与を行った。対象はBCCWJ図書館サブコーパス収録の全10,551サンプルである。テキスト構造が単純(例:章節構造)なもの(全体の84%)については,内容・表現の文体的特徴により,専門度,客観度,硬度,くだけ度,および語りかけ性度,という5観点による分類指標を定め,主観的評定によって評価値を付与した。また,テキスト構造・紙面形式などの点で上記分類になじまないもの(全体の16%)を見出し,その特徴を表す別の指標を設定した。これらを通じて,図書館サブコーパスに収録される全サンプルの多種多様な形式の類型ごとの分布や,各類型のNDC ごとの頻度が明らかになった。

To facilitate the use of BCCWJ for writing style studies, we proposed a feature index system that characterizes the writing styles of the book samples in the corpus and then, following the proposed system, annotated all of the 10,551 samples included in its library subcorpus. For the samples with a simple text structure (84%), we chose five axes (specificity, objectivity, formality, softness, and spokenness) and assigned a five-dimensional index to each sample based on a subjective assessment. For the remaining samples (16%), that is, the samples with a complex text structure or some specific format, we employed a different set of feature annotations. This approach allowed a systematic analysis of the diverse writing styles of the samples included in the library subcorpus. Statistics such as the number of samples with a specific style feature, and correlations between the styles and NDC (Nippon Decimal Classification) categories were obtained.

application/pdf

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ