著者推定におけるBERTの比較分析とアンサンブル学習

神田 泰誠, 金 明哲

doi:10.2964/jsik_2024_022

書誌事項

タイトル別名

An Empirical Comparison and Ensemble Learning Methods of BERT Models on Authorship Attribution

説明

<p>　BERTは大量の学習データを用いて事前学習を行い，微調整して個別分野のタスクに適応させる汎用言語モデルである．日本語では比較的に入手しやすいWikipedia，青空文庫，日本語ビジネスニュース記事などに基づいて学習したBERTが続々と公開されている．本研究では，著者推定において異なる事前学習データから構築された複数のBERTの性能比較を行い，事前学習データが個別タスクに与える影響を分析した．また，複数のBERTのアンサンブル学習で著者推定モデルの精度を向上させる方法について研究を行った．その結果，青空文庫内の著者の推定において青空文庫から構築されたBERTの性能が高いことがわかった．よって，事前学習データが個別タスクを解く際のモデルの性能に影響を与えていることが明らかになった．また，複数のBERTのアンサンブル学習モデルの性能は，BERTを単体で用いた場合の性能に比べて向上することがわかった．</p>

収録刊行物

情報知識学会誌

情報知識学会誌 34 (3), 244-255, 2024-09-30

情報知識学会

キーワード

詳細情報詳細情報について

CRID: 1390583647822855552

DOI: 10.2964/jsik_2024_022

ISSN: 18817661; 09171436

Web Site: https://www.jstage.jst.go.jp/article/jsik/34/3/34_2024_022/_pdf

本文言語コード: ja

データソース種別

JaLC
Crossref

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘