抄録
(社)日本電子工業振興協会対話理解技術専門委員会は、広い意味での対話処理の研究開発に資するため、対話データの収集と構造化を実施し、その成果であるタグ付き対話コーパスを公開するとともに、その収集および構造化の方法に関する提言を発信することを目的として活動している。今年度は昨年度までに作成したマルチモーダル対話コーパスの配布を進めるとともに、このデータに対するタグ付け作業をほぼ完了し、2000年6月にタグ付きコーパスを部分公開する予定である。本報告ではマルチモーダルデータ構造化の諸相という観点から、人間の言語行動における複数モダリティー(統語構造・共参照、対話構造、韻律、表情)の構造化技法と構造化データの性質について報告する。
The Multi-Modal Dialogue Corpus is a corpus of unscripted, task-oriented dialogues which has been digitally recorded, and transcribed to support the study of human face-to-face multi-modal dialogue. The particularity of present corpus is the collection of Dialogues in the high quality video format. The first version of the corpus published last year occupies 2 CD-ROMs, and contains:a complete set of transcripts in a plane-text format;a complete set of audiovisual data in the MPEG1 format;images of all materials in the JPEG format;basic documentation in the HTML-text format. The task to develop annotation scheme and annotate the corpus in several levels-phonological transcription of prosody, body movement coding, syntactic and semantic annotation, and discourse tagging-is in progress. The second version of the corpus will be published in the month of June 2000, including annotated transcripts.