『日本語日常会話コーパス』における転記の基準と作成手法

DOI NINJAL Web Site オープンアクセス

書誌事項

タイトル別名
  • Criteria and Composition Method of Transcription for the Corpus of Everyday Japanese Conversation
  • 『 ニホンゴ ニチジョウ カイワ コーパス 』 ニ オケル テンキ ノ キジュン ト サクセイ シュホウ

この論文をさがす

抄録

国立国語研究所 研究系 音声言語研究領域 非常勤研究員

千葉大学大学院 博士課程/国立国語研究所 研究系 音声言語研究領域 非常勤研究員

国立国語研究所 コーパス開発センター 非常勤研究員

国立国語研究所 コーパス開発センター

国立国語研究所 研究系 音声言語研究領域

Adjunct Researcher, Spoken Language Division, Research Department, NINJAL

Doctoral Student, Chiba University / Adjunct Researcher, Spoken Language Division, Research Department, NINJAL

Adjunct Researcher, Center for Corpus Development, NINJAL

Center for Corpus Development, NINJAL

Spoken Language Division, Research Department, NINJAL

本稿は,平成28年度から構築を進めている『日本語日常会話コーパス』における転記の基準と作成手法について述べる。本コーパスには,日常場面で自然に生じるさまざまなタイプの会話200時間がバランス良く収録される予定である。日常会話には,極めてくだけた表現や,聞き取りづらい,あるいは把握しづらい表現が頻出する。こうした会話データを多人数により均質に書き起こすには,転記のための基準を明確に定める必要がある。また,200時間という大量の会話を限られた期間で書き起こすために,効率的に作業をするための工夫が必要になる。本プロジェクトでは,実際の会話データを対象に転記を行いながら,効率的に作業をするための工程を検討し,ツールの開発や転記基準の改訂を行ってきた。本稿では,このようにして策定した転記基準と,作業を効率的に進めるために整備した方法について紹介する。

This paper describes the criteria and composition method of transcription for the Corpus of Everyday Japanese Conversation, which has been in construction since 2016 and will contain 200 hours of various types of conversations in a balanced distribution. As some expressions are extremely informal, hard to hear, or hard to understand, it is necessary to establish clear criteria for transcription to ensure homogeneous transcription quality from a large number of staff. Methods are also required to transcribe no less than 200 hours of conversations efficiently and in a timely manner. As part of this project, procedures for efficient transcription have been considered, and the development of tools and the revision of criteria of transcription have been conducted. This paper presents said transcription criteria and methods.

application/pdf

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ