機械学習を用いた特許文書分類における入力ベクトルの影響

  • 西尾 潤
    アジア特許情報研究会 株式会社ユポ・コーポレーション
  • 安藤 俊幸
    アジア特許情報研究会 花王株式会社

書誌事項

タイトル別名
  • Influence of input vector on patent document classification using machine learning

説明

<p>特定技術分野における「特許請求の範囲」を入力文とし、人為的に分類ラベルを付与したデータセットを自作し、教師あり機械学習で文書分類を行うとき、機械学習モデルに入力する文書ベクトルの違いが精度に及ぼす影響について報告する。</p><p>機械学習モデルは、TensorflowをバックエンドとするKerasで1次元CNNを使用するニューラルネットワークと、非線形SVMとを実装した。</p><p>形態素解析はMeCabとsentencepieceとを比較検討した。</p><p>また、入力ベクトルは辞書ID列をKerasのエンベッド層に入力する方法、形態素頻度情報、TF-IDF、Word2Vecによる分散表現のそれぞれをKerasの全結合層に入力する方法及びSVMに入力する方法を比較検討した。</p><p>また、入力文字列の長さがが文書によってまちまちである点について着目し、文字列の後方をカットしたときの影響についても考察する。</p><p>本検討はアジア特許情報研究会における2018年のワーキングである。</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390845713076540416
  • NII論文ID
    130007663206
  • DOI
    10.11514/infopro.2019.0_37
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ