文字レベル畳み込みニューラルネットに対するトピック分布を用いた事前学習

DOI

書誌事項

タイトル別名
  • Pre-training Using Topic Distribution for Character Level Convolutional Neural Networks

抄録

近年,文字レベル畳み込みニューラルネットワーク(CNN)を用いた文書分類の手法が,複数提案されており,その有効性が示されている.一方で,事前学習を用いて,ニューラルネットを用いた文書分類等の精度を向上させる手法も盛んに研究されてきている.しかし,文字レベルCNNでは,単語ごとのベクトル表現を利用しないため,既存研究における事前学習の枠組みをそのまま適用することは難しい.そこで,本研究では,文字レベルCNNのための新たな事前学習の手法として,教師なし学習で獲得されたトピック分布を仮のラベルとして用いる手法を提案する.本論文では,実際に,複数のデータセットに対してLatent Dirichlet Allocation (LDA)用いて,トピック分布を複数推定し,文字レベルCNNの事前学習を行う.その後,真のラベルを用いて再学習することで,事前学習を行わない場合に比べ,分類精度が改善することを示す.特に,複数の異なるトピックモデルの学習結果を混合させ,それを事前学習に用いたとき,最も精度が向上することを示す.また,半教師あり学習としても,大幅な精度改善が可能であり,特に,ラベル付きデータの数が極めて少数に制限されている場合でも,一定程度の精度を達成できること示す.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1390283659865605632
  • DOI
    10.14923/transinfj.2019pdp0004
  • ISSN
    18810225
    18804535
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • KAKEN
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ