不均衡分類問題としての小説の段落境界推定

Search this article

Abstract

小説の創作支援に関する研究は多岐にわたる.本研究では,読み手が文章の内容理解を深めるための重要な文章技法の1つである段落分けに焦点を当てた.この段落分けは,対象とする文どうしの間における,段落としての境界の存在の有無に関する分類問題としてとらえることが可能である.しかしその場合,一般に段落の数は文の数と比較して少ないため,データの不均衡性がボトルネックとなる.我々はこの問題に対処するため,BERTに不均衡データの分類問題に対して頑健な損失関数を導入した.そして本研究のために新たに作成したデータセットを対象とした実験を通して,Focal LossおよびDice Lossを導入した場合に,従来のBERTと比較して有意に高い精度が得られることを実験的に確認した.また,モデルに対する入力文の範囲を拡張することが段落境界を推定するために有効であることを明らかにした.

There are various studies on creation support for writing novels. In this study, we focus on paragraph segmentation, which is one of the important writing techniques for readers to deepen their understanding of the texts. The paragraph segmentation can be considered as a classification problem regarding the presence or absence of a boundary as a paragraph between the target sentences. However, in that case, the data imbalance becomes a bottleneck because the number of paragraphs is generally smaller than the number of sentences. In order to deal with this problem, we have introduced several loss functions which is robust for the imbalanced classification in BERT@. We confirmed experimentally that significantly higher accuracy is obtained when using the model with Focal Loss and Dice Loss compared to the conventional BERT through experiments on the dataset newly created for this study. In addition, it was clarified that expanding the range of input sentences to the model is effective for estimating paragraph boundaries.

Journal

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top