- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
Effective patent search method using Distributed representations
-
- ANDO Toshiyuki
- Kao Corporation
-
- xxxxxxxxxxxxxx xxxxxxxxxxxxxx
- HAYABUSA INTERNATIONAL PATENT OFFICE
Bibliographic Information
- Other Title
-
- 分散表現学習を利用した効率的な特許調査
- Document Vectorization Method and Application to Document Classification
- 文書のベクトル化方法と文書分類への応用
Description
<p>ニューラルネットワークを利用した単語・文書の分散表現学習を用いて効率的な特許調査方法を検討した。特にSDI調査を念頭に約3000件のインクジェット関連特許を人手で分類付与した実験用データセットを作成して文書のベクトル化方法とその用途として次元圧縮による文書の俯瞰可視化、文書分類への応用、類義語の抽出支援を検討した。</p><p>文書のベクトル化手法としてOneHotベクトルのBag of Word(BoW)モデル、TF・IDFモデル、分散表現ベクトルのモデルとしてAve-word2vec、doc2vec、SCDV(Sparse Composite Document Vectors)4)、Ave-fastText、fastText-SCDVを検討した。</p><p>機械学習による文書分類の手法としてはBoostingとRandom Forestsを組み合わせて集団学習させるPython用XGBoost(eXtreme Gradient Boosting)パッケージを利用した。XGBoostの他に7種類の文書分類アルゴリズムを検討した。</p><p>各モデルを交差検証した結果SCDVによる文書ベクトルを用いてXGBoostによる文書分類モデルが一番良かった。これは調査目的や調査の活用シーンに合わせて使えば十分特許調査実務に応用可能である。機械学習を用いて公報を文書分類する場合、教師データ(作成)を考慮した分類体系の設計が重要である。</p>
Journal
-
- Preprints of the Information Professional Symposium
-
Preprints of the Information Professional Symposium 2019 (0), 31-36, 2019
Information Science and Technology Association
- Tweet
Details 詳細情報について
-
- CRID
- 1390282763122925312
-
- NII Article ID
- 130007663204
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
- CiNii Articles
-
- Abstract License Flag
- Disallowed