OSSプロジェクトのIssue議論内容に対するBERTおよびAutoMLを用いた文章分類の提案
書誌事項
- タイトル別名
-
- Classification of Issue discussions in Open Source Software Projects using BERT or Automated ML
抄録
<p>(1) 目的:製品の欠陥レポートやコールセンターのチャット履歴,会議の議事録といった長い文書から関連情報を取得することは困難な作業である.したがって,文書内の各文の情報タイプを識別する技術は重要である.本研究では,どのような特徴が各文の情報タイプを識別するタスクに置いて有効であるか明らかにすること,本タスクにおいて深層学習のBERTモデルが有効であるかについて取り組んだ.文書コーパスにはTensorFlowやscikit-learnなどのオープンソースソフトウェアプロジェクトにおけるIssue上での議論を用いた. (2) 結果:AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果,文の長さ,ドキュメント内の位置,コメント間の時間といった特徴量が重要だとわかった.最終層のみをファインチューニングした限定的なBERTモデルでは,性能において通常のロジスティック回帰と大きな違いはなかった.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2020 (0), 3Rin408-3Rin408, 2020
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390848250119654272
-
- NII論文ID
- 130007857136
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可