Influence of input vector on patent document classification using machine learning
-
- NISHIO Jun
- Society of Asia Patent Information YUPO Corporation
-
- ANDO Toshiyuki
- Society of Asia Patent Information Kao Corporation
Bibliographic Information
- Other Title
-
- 機械学習を用いた特許文書分類における入力ベクトルの影響
Description
<p>特定技術分野における「特許請求の範囲」を入力文とし、人為的に分類ラベルを付与したデータセットを自作し、教師あり機械学習で文書分類を行うとき、機械学習モデルに入力する文書ベクトルの違いが精度に及ぼす影響について報告する。</p><p>機械学習モデルは、TensorflowをバックエンドとするKerasで1次元CNNを使用するニューラルネットワークと、非線形SVMとを実装した。</p><p>形態素解析はMeCabとsentencepieceとを比較検討した。</p><p>また、入力ベクトルは辞書ID列をKerasのエンベッド層に入力する方法、形態素頻度情報、TF-IDF、Word2Vecによる分散表現のそれぞれをKerasの全結合層に入力する方法及びSVMに入力する方法を比較検討した。</p><p>また、入力文字列の長さがが文書によってまちまちである点について着目し、文字列の後方をカットしたときの影響についても考察する。</p><p>本検討はアジア特許情報研究会における2018年のワーキングである。</p>
Journal
-
- Preprints of the Information Professional Symposium
-
Preprints of the Information Professional Symposium 2019 (0), 37-42, 2019
Information Science and Technology Association
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1390845713076540416
-
- NII Article ID
- 130007663206
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
- CiNii Articles
-
- Abstract License Flag
- Disallowed