OSSプロジェクトのIssue議論内容に対するBERTおよびAutoMLを用いた文章分類の提案

DOI

書誌事項

タイトル別名
  • Classification of Issue discussions in Open Source Software Projects using BERT or Automated ML

抄録

<p>(1) 目的:製品の欠陥レポートやコールセンターのチャット履歴,会議の議事録といった長い文書から関連情報を取得することは困難な作業である.したがって,文書内の各文の情報タイプを識別する技術は重要である.本研究では,どのような特徴が各文の情報タイプを識別するタスクに置いて有効であるか明らかにすること,本タスクにおいて深層学習のBERTモデルが有効であるかについて取り組んだ.文書コーパスにはTensorFlowやscikit-learnなどのオープンソースソフトウェアプロジェクトにおけるIssue上での議論を用いた. (2) 結果:AutoMLを利用して構築したモデルにSHAPを利用してGlobal Importanceを計算した結果,文の長さ,ドキュメント内の位置,コメント間の時間といった特徴量が重要だとわかった.最終層のみをファインチューニングした限定的なBERTモデルでは,性能において通常のロジスティック回帰と大きな違いはなかった.</p>

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1390848250119654272
  • NII論文ID
    130007857136
  • DOI
    10.11517/pjsai.jsai2020.0_3rin408
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ