機械学習を用いた特許文書分類における入力ベクトルの影響
書誌事項
- タイトル別名
-
- Influence of input vector on patent document classification using machine learning
説明
<p>特定技術分野における「特許請求の範囲」を入力文とし、人為的に分類ラベルを付与したデータセットを自作し、教師あり機械学習で文書分類を行うとき、機械学習モデルに入力する文書ベクトルの違いが精度に及ぼす影響について報告する。</p><p>機械学習モデルは、TensorflowをバックエンドとするKerasで1次元CNNを使用するニューラルネットワークと、非線形SVMとを実装した。</p><p>形態素解析はMeCabとsentencepieceとを比較検討した。</p><p>また、入力ベクトルは辞書ID列をKerasのエンベッド層に入力する方法、形態素頻度情報、TF-IDF、Word2Vecによる分散表現のそれぞれをKerasの全結合層に入力する方法及びSVMに入力する方法を比較検討した。</p><p>また、入力文字列の長さがが文書によってまちまちである点について着目し、文字列の後方をカットしたときの影響についても考察する。</p><p>本検討はアジア特許情報研究会における2018年のワーキングである。</p>
収録刊行物
-
- 情報プロフェッショナルシンポジウム予稿集
-
情報プロフェッショナルシンポジウム予稿集 2019 (0), 37-42, 2019
一般社団法人 情報科学技術協会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1390845713076540416
-
- NII論文ID
- 130007663206
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可