Kernel Data Squashing : An Application of Kernel Density Estimation Techniques to Mining Massive Data Sets(<Special Section>New Developments in Nonparametric Method)
Bibliographic Information
- Other Title
-
- カーネル・データスカッシング:カーネル密度推定法のデータマイニングへの応用
- カーネル データスカッシング カーネル ミツド スイテイホウ ノ データマイニング エ ノ オウヨウ
Search this article
Description
DuMouchel et al.(1999)は,大量データの統計分析の計算負荷を緩和するために,データスカッシング(data squashing)というマイニング手法を提案した.この手法の考え方は,大量データを分析するための計算アルゴリズムを「拡大させる」のではなく,大量データセットを代表的なサンプル(squashed data)へと「縮小させる」というものである.しかし,大量データの統計的情報を保持するようにスカッシングを行うためには,大規模な(非線形)連立方程式を解くことが必要となり,データスカッシングの既存の手法は依然として計算負荷が大きい.この困難を解決するために,本稿ではスカッシング実装への新たなアプローチとしてカーネル・データスカッシング(KDS)を提案する.KDSは,その名前が示唆するようにカーネル密度推定法を利用したものである.KDSは連立方程式を解くステップを必要とせず,簡単に実装可能である.KDSが大量データの統計的情報を十分に保存することを示すために,KDSに基づく最尤法の漸近的なバイアスと漸近分散を導出する.さらに,我々の結果を例示するためのいくつかのシミュレーションを行う. The data squashing is proposed by DuMouchel et al. (1999) to deal with massive data sets. The idea is to scale data sets down to smaller representative samples, squashed data, instead of scaling up algorithms to large data sets. However, the original scheme for the construction of the squashed data may still be computationally burdensome because it usually requires solving a large system of equations. To overcome this difficulty we propose a new method, the Kernel Data Squashing (KDS), which does not involve solving such equations and thus is easy to implement. To examine if our approach preserves much of the statistical information of the massive data set, we study the accuracy of the maximum likelihood estimator based on the KDS. In particular, we derive the asymptotic bias and variance of the KDS-based maximum likelihood estimator. The results show that the KDS preserves the statistical information of the original massive data set as required. Some simulation study is provided to explain our results.
Journal
-
- 日本統計学会誌. シリーズJ = Journal of the Japan Statistical Society. Japanese issue
-
日本統計学会誌. シリーズJ = Journal of the Japan Statistical Society. Japanese issue 39 (2), 243-263, 2010-03-01
日本統計学会 = Japan Statistical Society
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1390859758186547456
-
- NII Article ID
- 110007618316
-
- NII Book ID
- AA11989749
-
- ISSN
- 03895602
-
- NDL BIB ID
- 10713191
-
- Text Lang
- ja
-
- Article Type
- journal article
-
- Data Source
-
- JaLC
- IRDB
- NDL Search
- NDL Digital Collections (NII-ELS)
- CiNii Articles
- KAKEN