大規模データのファジィc平均識別器

書誌事項

タイトル別名
  • Fuzzy c-Means Classifier for Large Scale Data
  • ダイキボ データ ノ ファジィ c ヘイキン シキベツキ

この論文をさがす

抄録

本論文では,セミハードクラスタリングに基づくファジィc平均(FCM)識別器を大規模データに適用する際の課題や改善法について検討する.大規模データには,訓練データが大量である場合と特徴量(変数)の次元数が非常に大きい場合がある.データが大量である場合にはランダムなサンプリングでデータ数を削減することができるが,識別精度が悪くなることがある.特に利用可能な既知データに対する精度は低下する.提案のFCM識別器は分散共分散行列を用いるために,データ件数が増えても行列のサイズは変わらない.そこで,まず最も高性能な識別器の一つであるサポートベクターマシン(SVM)を用いた計算結果や改良SVMの文献での報告との比較から,FCM識別器は大量データの場合もSVMと同程度の識別精度を達成していて,訓練時間とテスト時間において大幅に優れていることを報告する.FCM識別器は特徴量の次元数が比較的小さいか主成分分析(PCA)などで圧縮して用いる場合には訓練データが大量でも短時間で訓練が収束する.しかし,特徴量の次元数が大きい場合には分散共分散行列のサイズが大きくなり計算不可能となる.そこで,訓練データ数は比較的少ないが特徴量の次元数が非常に大きい場合に,特徴量の次元を圧縮することなく通常のパーソナルコンピュータでも計算可能な改良アルゴリズムを提案する.高次元データの例としてCOREL画像データの分類問題を取り上げて,PCAによるデータ圧縮を用いる場合や文献で報告されている結果との比較を行う.

収録刊行物

  • 知能と情報

    知能と情報 22 (6), 792-803, 2010

    日本知能情報ファジィ学会

参考文献 (14)*注記

もっと見る

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ