〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

浅原 正幸, Masayuki ASAHARA

doi:10.15084/00000796

書誌事項

タイトル別名

Building NINJAL Web Japanese Corpus : Use and Application
超大規模コーパス構築プロジェクト日本語Webコーパスの構築 : 利活用
チョウダイキボコーパスコウチクプロジェクトニホンゴ Web コーパスノコウチク : リカツヨウ

この論文をさがす

抄録

国立国語研究所言語資源研究系・コーパス開発センター

国立国語研究所コーパス開発センターでは2011年より超大規模コーパス構築プロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の4つに分割して実装を進めている。2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。本稿では構築されたコーパスデータの基礎統計量を示し,本コーパスを用いて,どのような理論的・応用的研究が可能になると考えられるかを論じる。

In 2011, the National Institute for Japanese Language and Linguistics launched a corpus compilation project with the aim of constructing a ten-billion-word Web corpus. The project was split into the following four sub-projects: page collection, linguistic annotation, release, and preservation. In the page collection stage, crawling began during the fourth quarter of 2012. We crawled 100 million URLs every three months as fixed-point observations. This paper presents the basic statistics of the crawled data and discusses possible theoretical and practical implications of these language resources.

application/pdf

収録刊行物

国語研プロジェクトレビュー = NINJAL Project Review

国語研プロジェクトレビュー = NINJAL Project Review 6 (1), 1-10, 2015-06

国立国語研究所

詳細情報詳細情報について

CRID: 1390009224767915904

NII論文ID: http://ci.nii.ac.jp/naid/KJ00009788019; 110009910085

NII書誌ID: AA12480598

ISSN: 21850100; 21850119

DOI: 10.15084/00000796

NDL書誌ID: 027580087

Web Site: https://repository.ninjal.ac.jp/records/805; https://ndlsearch.ndl.go.jp/books/R000000004-I027580087

本文言語コード: ja

データソース種別

JaLC
IRDB
NDL
CiNii Articles

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト日本語Webコーパスの構築 : 利活用

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト日本語Webコーパスの構築 : 利活用

詳細情報詳細情報について