Search Results 1-20 of 53

  • 1 / 3
  • Machine Learning-based Sentence Boundary Detection for Modern Japanese Texts  [in Japanese]

    白井 良介 , 松村 雪桜 , 小木曽 智信 , 小町 守

    本稿では,機械学習を用いて近代の歴史的資料に対して文境界を検出する手法を提案する.近代の歴史的資料は明確な文境界が必ずしも存在しないため,これまで人手作業による文境界の付与が行われてきたが,膨大な資料に対してなかなか作業が進んでいない現状がある.そこで我々は機械学習を用いて文境界を検出する手法を提案する.この手法により膨大な量の資料に対して文境界の一次的なアノテーションを施すことができることに加え …

    情報処理学会論文誌 61(2), 152-161, 2020-02-15

    IPSJ 

  • Construction of an Alignment Table between 'Word List by Semantic Principles' and UniDic  [in Japanese]

    近藤 明日子 , 田中 牧郎 , Asuko KONDO , Makiro TANAKA

    … 国立国語研究所 コーパス開発センター 非常勤研究員明治大学日本語の大規模コーパスへの網羅的・体系的な語義情報付与を目的として,語義の体系的な分類を示す大規模な現代日本語のシソーラス『分類語彙表増補改訂版データベース』の見出しと,各種大規模コーパスの構築に利用されている電子化辞書UniDicの見出し(語彙素)との同語関係による対応を表す表形式データの構築を行った。 …

    国立国語研究所論集 (18), 77-91, 2020-01

    IR  DOI 

  • Semi-Supervised Word Sense Disambiguation Using Unlabeled Examples of Each Genre  [in Japanese]

    谷田部 梨恵 , 佐々木 稔 , Rie Yatabe , Minoru Sasaki

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター単語の語義曖昧性解消は、今日に至るまで様々な研究が行われており、教師あり学習を用いることで高い精度を出している。しかし、先行研究では学習用のデータが不足して誤る事例が多いことが指摘されている。新たに学習データを追加するには、用例文における単語の …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 288-294, 2019

    IR  DOI 

  • An analysis of the lexical characteristics of model nursing practice records  [in Japanese]

    山元 一晃 , 浅川 翔子 , Kazuaki Yamamoto , Shoko Asakawa

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター看護師を目指す学生のための実習記録を扱った教材に手本として示されている看護記録について、そこに用いられている語彙の分析を行った。今回、分析対象とした書籍に含まれる「アセスメント」、「看護計画」、(看護計画の)「実施・評価」「サマリー」を分析し、 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 258-272, 2019

    IR  DOI 

  • Morphological Analysis of the Corpus of Everyday Japanese Conversation  [in Japanese]

    西川 賢哉 , 渡邊 友香 , Ken'ya Nishikawa , Yuka Watanabe

    … まず、MeCab+UniDicで自動解析したのち、短単位付加情報の一つである「発音形」を、音を聴取しながら人手で修正する。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 238-250, 2019

    IR  DOI 

  • UniDic Non-core Data : Release of additional information corresponding to ID information of UniDic  [in Japanese]

    岡 照晃 , Teruaki Oka

    … 会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター本発表では、形態素解析器『MeCab』用の電子化辞書である短単位自動解析用辞書『UniDic』(『解析用UniDic』)のアペンドデータの公開について紹介を行う。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 185-194, 2019

    IR  DOI 

  • Quantitative Study on Linguistic Features of the Lyrics of School Songs : A case of Shiga Public Schools  [in Japanese]

    陳 㬢 , 松本 理美 , 小椋 秀樹 , Xi Chen , Satomi Matsumoto , Hideki Ogura

    会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター校歌は、その学校を象徴するものであり、校風、所在地の地理的特徴などが歌詞に歌われることが多い。式典で歌うなど、児童・生徒にとって身近なものでもある。しかし校歌の歌詞の言語的特徴について分析した研究は少なく、いまだ十分に明らかにされているとは言い …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (4), 72-84, 2019

    IR  DOI 

  • The Impact of Dictionaries in Automatic Morphological Analysis of Yojokun  [in Japanese]

    相良 かおる

    じんもんこん2018論文集 (2018), 153-160, 2018-11-24

    IPSJ 

  • Aggregation of the Secondary Information about the study on Historical Japanese: Compilation of Word History Database  [in Japanese]

    山崎 誠

    じんもんこん2018論文集 (2018), 141-146, 2018-11-24

    IPSJ 

  • An Attempt to Extract New Lemma Candidates from Ninjal Web Japanese Corpus  [in Japanese]

    岡 照晃 , Teruaki OKA

    … 会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター『国語研日本語ウェブコーパス(NWJC)』は、国立国語研究所がこれまで公開してきた『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』と異なり、形態論情報をすべて形態素解析器『MeCab』と『解析用UniDic』を使って自動付与している。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 586-592, 2018

    IR  DOI 

  • Supplemental Arrangement for Public Data Available in the Chunagon Versions of "Gen-Nichi-Ken Corpus of Workplace Conversation"  [in Japanese]

    柏野 和佳子 , 大村 舞 , 西川 賢哉 , 小磯 花絵 , Wakako KASHINO , Mai OMURA , Ken'ya NISHIKAWA , Hanae KOISO

    … 国立国語研究所に提供されたその文字化テキストをMeCab+UniDicで解析し,オンライン検索システム『中納言』にて『現日研・職場談話コーパス』として公開する。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 495-510, 2018

    IR  DOI 

  • A Study on Application of Automatic Dialogue Generation of Language Acts by Japanese Learner's Attribute  [in Japanese]

    太田 博三 , Hiromitsu OTA

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター最近,自然言語処理における対話システムや対話生成が注目されている.チャットボットのコールセンターへの普及により,正確な人間性な対話応答が求められている.一方,社会学のエスノメソドロジーや談話分析・会話分析における定性的な相互行為は有益である.そ …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 485-494, 2018

    IR  DOI 

  • Extracting of Word Constituents Contained in Medical Terms  [in Japanese]

    内山 清子 , 岡 照晃 , 東条 佳奈 , 小野 正子 , 山崎 誠 , 相良 かおる , Kiyoko UCHIYAMA , Teruaki OKA , Kana TOJO , Masako ONO , Makoto YAMAZAKI , Kaoru SAGARA

    … 語構成要素の条件を独自で定義した後、ComJisyoV5、と今後公開予定のV6の登録候補語に対象として、MecabMeCab0.996とUniDic-cwj-2.2.0を利用して形態素解析を行った。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 463-467, 2018

    IR  DOI 

  • /N/ Is Not Easy for UniDic as Well : Take BCCWJ as an example  [in Japanese]

    劉 志偉 , Zhiwei LIU

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター日本語の撥音は種々雑多であるゆえ、日本語学習者にとっては学習しにくい項目である。本発表では、BCCWJの非コアデータも視野に入れて、撥音の解析に関しては解析精度が98%に到底及ばないことを提示するとともに、具体的に「一般名詞」「オノマトペ」「漢 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 368-371, 2018

    IR  DOI 

  • Words Occurring with Both Variants of Honorific Prefix : o- and go-  [in Japanese]

    服部 匡 , Tadasu HATTORI

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター「お~」と「ご~」のどちらも伴う語の存在が知られているが、コーパスでの網羅的調査が従来なかった。青空文庫・新聞記事データベース・自作ウェブコーパスを用いた探索により、多数の語を発見した。各コーパスでの両者の使用傾向について、いくつかの観点からの …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 362-367, 2018

    IR  DOI 

  • Annotation of Word Structures in Japanese using "UniDic" : A Study of the Corpus of Historical Japanese  [in Japanese]

    村山 実和子 , Miwako MURAYAMA

    … その方法として,各種コーパスに紐付いた解析用辞書「UniDic」の見出し語に対して,構成語情報を付与することを試みる。 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 267-273, 2018

    IR  DOI 

  • What Is the Meaning of 'Nomi-Taosu'? : Analysis of Japanese Low-Frequency Compound Verbs by Using Google Search  [in Japanese]

    徐 敏徹 , Mincheol SEO

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センターコーパスという用語の定義には、おおむね「大規模」という単語が登場する。しかし、そのような(大規模な)コーパスであっても、日常生活における使用頻度の低い言葉に関しては、そこから有用な情報を得ることが難しい。本研究では、意味記述が不十分だと考えられ …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 221-235, 2018

    IR  DOI 

  • The Characteristic of the Written Japanese Vocabulary in the Early Meiji era : An Analysis of the Specialized Vocabulary of "Meiroku Zasshi" and "Toyo Gakugei Zasshi"  [in Japanese]

    近藤 明日子 , Asuko KONDO

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター明治前期の語彙の特性を明らかにすることを目的として、明治前期の書き言葉を代表する資料『明六雑誌』『東洋学芸雑誌』と明治中期以降の書き言葉を代表する資料『国民之友』『太陽』との語彙の頻度を比較し、『明六雑誌』『東洋学芸雑誌』に有意に高頻度な語(特 …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 213-220, 2018

    IR  DOI 

  • Construction and Practical Use of "King Corpus"  [in Japanese]

    髙橋 雄太 , Yuta TAKAHASHI

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター本発表は, 昭和期の雑誌『キング』を資料として構築した『キングコーパス』の設計と活用についてである。国立国語研究所の明治・大正期の『太陽』のコーパスに続く資料として,大衆雑誌『キング』を選定し,1933年と1941年でコーパスを構築した。『キン …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 204-212, 2018

    IR  DOI 

  • All-words WSD with WLSP number as a Sense Label Using a Bidirectional LSTM  [in Japanese]

    新納 浩幸 , 鈴木 類 , 古宮 嘉那子 , Hiroyuki SHINNOU , Rui SUZUKI , Kanako KOMIYA

    会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター語義曖昧性解消は意味解析の重要な要素技術であるが,実際のシステムに利用されることは少ない.これは現状の語義曖昧性解消が主として教師あり学習のアプローチをとっているため,対象単語が限定されてしまうからである.我々は対象単語を限定しないall-wo …

    言語資源活用ワークショップ発表論文集 = Proceedings of Language Resources Workshop (3), 192-202, 2018

    IR  DOI 

  • 1 / 3
Page Top