著者推定におけるBERTの比較分析とアンサンブル学習

  • 神田 泰誠
    同志社大学大学院 文化情報学研究科
  • 金 明哲
    同志社大学 言語生態科学センター, 京都先端科学大学 総合研究所

書誌事項

タイトル別名
  • An Empirical Comparison and Ensemble Learning Methods of BERT Models on Authorship Attribution

説明

<p> BERTは大量の学習データを用いて事前学習を行い,微調整して個別分野のタスクに適応させる汎用言語モデルである.日本語では比較的に入手しやすいWikipedia,青空文庫,日本語ビジネスニュース記事などに基づいて学習したBERTが続々と公開されている.本研究では,著者推定において異なる事前学習データから構築された複数のBERTの性能比較を行い,事前学習データが個別タスクに与える影響を分析した.また,複数のBERTのアンサンブル学習で著者推定モデルの精度を向上させる方法について研究を行った.その結果,青空文庫内の著者の推定において青空文庫から構築されたBERTの性能が高いことがわかった.よって,事前学習データが個別タスクを解く際のモデルの性能に影響を与えていることが明らかになった.また,複数のBERTのアンサンブル学習モデルの性能は,BERTを単体で用いた場合の性能に比べて向上することがわかった.</p>

収録刊行物

参考文献 (2)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ