文字レベル畳み込みニューラルネットに対するトピック分布を用いた事前学習
書誌事項
- タイトル別名
-
- Pre-training Using Topic Distribution for Character Level Convolutional Neural Networks
抄録
近年,文字レベル畳み込みニューラルネットワーク(CNN)を用いた文書分類の手法が,複数提案されており,その有効性が示されている.一方で,事前学習を用いて,ニューラルネットを用いた文書分類等の精度を向上させる手法も盛んに研究されてきている.しかし,文字レベルCNNでは,単語ごとのベクトル表現を利用しないため,既存研究における事前学習の枠組みをそのまま適用することは難しい.そこで,本研究では,文字レベルCNNのための新たな事前学習の手法として,教師なし学習で獲得されたトピック分布を仮のラベルとして用いる手法を提案する.本論文では,実際に,複数のデータセットに対してLatent Dirichlet Allocation (LDA)用いて,トピック分布を複数推定し,文字レベルCNNの事前学習を行う.その後,真のラベルを用いて再学習することで,事前学習を行わない場合に比べ,分類精度が改善することを示す.特に,複数の異なるトピックモデルの学習結果を混合させ,それを事前学習に用いたとき,最も精度が向上することを示す.また,半教師あり学習としても,大幅な精度改善が可能であり,特に,ラベル付きデータの数が極めて少数に制限されている場合でも,一定程度の精度を達成できること示す.
収録刊行物
-
- 電子情報通信学会論文誌D 情報・システム
-
電子情報通信学会論文誌D 情報・システム J103-D (4), 280-290, 2020-04-01
The Institute of Electronics, Information and Communication Engineers
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390283659865605632
-
- ISSN
- 18810225
- 18804535
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- KAKEN
-
- 抄録ライセンスフラグ
- 使用不可