Search Results 1-20 of 136

  • Construction of Russian Translation Data for the "Balanced Corpus of Contemporary Written Japanese" and the Possibilities of Using Them in Japanese-Russian Comparative Studies  [in Japanese]

    宮内 拓也 , プロホロワ マリア , Takuya MIYAUCHI , Maria PROKHOROVA

    東京大学東京外国語大学大学院 博士後期課程『現代日本語書き言葉均衡コーパス』(の一部のデータ)には,既に英語,イタリア語,インドネシア語,中国語の翻訳データが構築されているが,新たにロシア語の翻訳データを構築した。対象となる起点テキストは『現代日本語書き言葉均衡コーパス』新聞(PN)コアデータ16サンプル(総語数は短単位で全16,657語)とし,ロシア語目標テキストの総語数は13,070語となった …

    国立国語研究所論集 (19), 167-185, 2020-07

    IR  DOI 

  • Design of BCCWJ-EEG : Balanced Corpus with Human Electroencephalography

    Yohei Oseki , Masayuki Asahara

    … Waseda UniversityNational Institute for Japanese Language and LinguisticsThe past decade has witnessed the happy marriage between natural language processing (NLP) and the cognitive science of language. … Moreover, given the historical relationship between biological and artificial neural networks, the advent of deep learning has re-sparked strong interests in the fusion of NLP and the neuroscience of language. …

    Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), 189-194, 2020-05

    IR  DOI 

  • Statistical Study of a Correlation between Information Structure and Word Orders of Noun Phrases in Japanese  [in Japanese]

    Miyauchi Takuya , Asahara Masayuki

    … ;p>本稿では,情報構造に関係する文法情報がどのように語順に影響を及ぼすのかについて調査するため,『現代日本語書き言葉均衡コーパス』の名詞句に対して情報構造に関わる文法情報のタグを付与した BCCWJ-InfoStr を利用して,名詞句の係り先からの距離(文節数)をベイジアン線形混合モデルによりモデル化した結果を報告する.その結果,日本語の名詞句の語順は,(I) 情報状態が旧情報であるものが新情報で …

    Journal of Natural Language Processing 27(2), 361-381, 2020

    IR  J-STAGE 

  • A Frame Semantic Approach to the Polysemy of itai (be in pain)  [in Japanese]

    阪口 慧

    … なお、本稿では日本語書き言葉均衡コーパス(BCCWJ)から採取した例を観察し、「痛い」には〈身体的苦痛〉〈金銭的損失〉〈精神的苦痛〉〈評価〉〈程度性〉といった様々な意味、用法を有することを示す。 …

    東京大学言語学論集 = Tokyo University linguistic papers (TULIP) 41(TULIP), 233-257, 2019-09-30

    IR  DOI 

  • Quantitative Analysis of School Textbook Corpus in BCCWJ:With a Focus on Readability and Vocabulary Level Distribution for Japanese Language Education  [in Japanese]

    Lee Jaeho

    … 本研究では,「現代日本語書き言葉均衡コーパス」(BCCWJ: Balanced Corpus of Contemporary Written Japanese)に含まれている教科書データ412件について日本語教育のためのリーダビリティと語彙レベルの分布を計量的に分析した.分析の結果,次の4点が明らかになった.1)学年が上がるに従って,日本語教育的 …

    Mathematical Linguistics 32(3), 147-162, 2019

    J-STAGE 

  • Statistical Information of the NINJAL Corpora:BCCWJ Frequency Table, Vocabulary Table, etc.  [in Japanese]

    Yamazaki Makoto

    本稿は,国立国語研究所のコーパス開発センターで公開しているコーパスのうち,Web検索ツール「中納言」に搭載されているコーパスの統計情報について紹介するものである.具体的に取り上げるコーパスは,『現代日本語書き言葉均衡コーパス』『日本語話し言葉コーパス』『日本語歴史コーパス』の3つである.

    Mathematical Linguistics 32(1), 33-40, 2019

    IR  J-STAGE 

  • BCCWJ-EyeTrack: Reading Time Annotation on the 'Balanced Corpus of Contemporary Written Japanese'  [in Japanese]

    Asahara Masayuki , Ono Hajime , Miyamoto Edson T.

    … <p>Kennedy et al.(2003)は,英語・フランス語の新聞社説を呈示サンプルとした母語話者の読み時間データをDundee Eye-Tracking Corpusとして構築し,公開している。 …

    GENGO KENKYU (Journal of the Linguistic Society of Japan) 156(0), 67-96, 2019

    J-STAGE 

  • Research on the semantic extension of basic color adjectives  [in Japanese]

    GUO Li

    … In this research, I would like to take basic color adjectives in Japanese and clarify differences between foreign words and Japanese words that represent the same color. … When foreign color adjectives and Japanese color adjectives modify nouns, consider what features are seen in each noun. …

    The journal of Japanese Language Education Methods 26(1), 36-37, 2019

    J-STAGE 

  • Between Reading Time and Clause Boundaries in Japanese—Wrap-up Effect in a Head-Final Language—  [in Japanese]

    Asahara Masayuki

    … <p>本論文では,リーダビリティ評価を目的として,日本語テキストの読み時間と節境界分類の対照分析を行う.日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ,ベイジアン線形混合モデルを用いて節末で,どのように読み時間が変わるかについて検討した.結果,英語などの先行研究で言われている節末で読み時間が長くなるとい …

    Journal of Natural Language Processing 26(2), 301-327, 2019

    IR  J-STAGE 

  • BCCWJ-EyeTrack : Reading Time Annotation on the 'Balanced Corpus of Contemporary Written Japanese'  [in Japanese]

    浅原 正幸 , 小野 創 , 宮本 エジソン 正 , Masayuki Asahara , Hajime Ono , Edson T. Miyamoto

    … (2003)は,英語・フランス語の新聞社説を呈示サンプルとした母語話者の読み時間データをDundee Eye-Tracking Corpusとして構築し,公開している。 …

    言語研究 = Journal of the Linguistic Society of Japan (156), 67-96, 2019

    IR 

  • Perspectives for Research Using the monitor version of the Corpus of Everyday Japanese Conversation  [in Japanese]

    小磯 花絵 , Hanae Koiso

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター本発表では『日本語日常会話コーパス』(CEJC)モニター公開版を用いることでどのような研究の可能性が開けるかを、コーパスを用いた予備的分析を通して具体的に示す。プロジェクトの開始時点では、国語研究所コーパス開発センターが提供するコーパスは書き言 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 392-401, 2019

    IR  DOI 

  • Variety of Responsive Interjections Observed in the Monitor Version of the Corpus of Everyday Japanese Conversation  [in Japanese]

    柏野 和佳子 , Wakako Kashino

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター会話中には、相手の発話に応じ、何らかの反応を返す表現が多用される。本稿ではこれを「応答表現」と呼ぶ。頻出するのは、「うん」「はい」「ああ」などの感動詞と呼ばれる語である。従来、応答表現は、感動詞、あるいは応答詞と呼ばれるものを中心に議論されてき …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 368-380, 2019

    IR  DOI 

  • Clustering of sentences including a target word by using BERT  [in Japanese]

    馬 ブン , 田中 裕隆 , 曹 鋭 , 白 静 , 新納 浩幸 , Wen Ma , Hirotaka Tanaka , Rui Cao , Jing Bai , Hiroyuki Shinnou

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター事前学習モデルであるBERTは入力文中の単語に対する埋め込み表現を出力するが、その埋め込み表現はその単語の文脈に依存した形となっている。つまりBERTから得られる単語の埋め込み表現はその単語の意味を表現していると考えられる。本論文では、この点を …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 343-350, 2019

    IR  DOI 

  • Annotation and Utilization of Speaker Information to Conversational Sentences in Novels Samples of BCCWJ  [in Japanese]

    山崎 誠 , 柏野 和佳子 , 宮嵜 由美 , Makoto Yamazaki , Wakako Kashino , Yumi Miyazaki

    … また、その他の話者情報は、中納言のサイトからBCCWJ所有者に限りダウンロードできるようにする予定である。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 313-320, 2019

    IR  DOI 

  • Semi-Supervised Word Sense Disambiguation Using Unlabeled Examples of Each Genre  [in Japanese]

    谷田部 梨恵 , 佐々木 稔 , Rie Yatabe , Minoru Sasaki

    … そこで、BCCWJの各ジャンルにおける語義なし用例文に対して語義曖昧性解消精度の比較を行い、どのような語義なしデータの利用が有効なのか分析を行う。 … 実験の結果、BCCWJ全ての用例文を追加した場合よりも精度が低くなったが、今回扱ったジャンルの中では雑誌(PM)に含まれる用例文を追加した場合が最も高い精度結果となった。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 288-294, 2019

    IR  DOI 

  • Word sense disambiguation using supervised learning with BERT  [in Japanese]

    曹 鋭 , 田中 裕隆 , 白 静 , 馬 ブン , 新納 浩幸 , Rui Cao , Hirotaka Tanaka , Jing Bai , Wen Ma , Hiroyuki Shinnou

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センターBERTはTransformerで利用されるMulti-head attentionを12層(あるいは24層)積み重ねたモデルである。各層のMulti-head attentionは、基本的に、入力単語列に対応する単語埋め込み表現列を出力してい …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 273-279, 2019

    IR  DOI 

  • An analysis of the lexical characteristics of model nursing practice records  [in Japanese]

    山元 一晃 , 浅川 翔子 , Kazuaki Yamamoto , Shoko Asakawa

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター看護師を目指す学生のための実習記録を扱った教材に手本として示されている看護記録について、そこに用いられている語彙の分析を行った。今回、分析対象とした書籍に含まれる「アセスメント」、「看護計画」、(看護計画の)「実施・評価」「サマリー」を分析し、 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 258-272, 2019

    IR  DOI 

  • Calculating stylistic differences between synonymous adverbs : Taking Mattaku, Zenzen, Sukoshimo, Chittomo as examples  [in Japanese]

    劉 時珍 , Shizhen Liu

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター本発表はコーパスを用いて副詞の語彙レベルの文体を測る方法を試みるものである。4つの類義副詞、「まったく」「ぜんぜん」「すこしも」「ちっとも」を対象に、8つの形態的指標に基づき、「硬度」と「あらたまり」という2次元的な尺度を交差させることによって …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 222-227, 2019

    IR  DOI 

  • Generating Sense Embeddings of Word List by Semantic Principles Using All-words WSD and Fine-tuning  [in Japanese]

    柳沼 大輝 , 古宮 嘉那子 , 新納 浩幸 , Daiki Yaginuma , Kanako Komiya , Hiroyuki Shinnou

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター近年、単語を低次元の実数値ベクトルで表した分散表現が自然言語処理の様々な分野で利用されている。さらに、単語の分散表現や、その作成手法の応用により語義ごとの分散表現を作成する研究がされており多くのタスクで有効な結果を残している。しかし、一般に人手 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 179-184, 2019

    IR  DOI 

  • Possibilities of Discovering Corpus-Based Studies Focusing on Data Citation  [in Japanese]

    中渡瀬 秀一 , 加藤 文彦 , 大向 一輝 , Hidekazu Nakawatase , Fumihiro Kato , Ikki Ohmukai

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター言語資源データの引用情報調査に基づいて、そのデータを活用した研究文献の発見可能性について論じる。このために言語処理学会年次大会発表論文集を対象として「現代日本語書き言葉均衡コーパス」などの引用情報を調査した。本稿ではその結果と今後の課題について …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 174-178, 2019

    IR  DOI 

Page Top