Kaggle熟練度に着目したデータ分析プログラム実装におけるソースコード再利用方法の探索的分析

機関リポジトリ HANDLE オープンアクセス

この論文をさがす

抄録

データ分析技術は情報社会における重要な技術のひとつである.世界規模のデータ分析コミュニティである Kaggle では,データ分析技術を競うコンペティションの実施や,データ分析に使用したプログラムの公開,共有が行われている.データ分析プログラムには,プログラムの再利用がコピー&ペーストで行われるという特徴がある.一方で,類似するプログラム片を複数箇所に記述すると,保守性の低下を招くと言われており,これを防ぐためには関数の定義やライブラリの活用が必要である.しかし,データ分析プログラムの実装において,プログラムの再利用は容易だが,保守作業が困難であるという報告があり,保守性を保ちながらプログラムを再利用するのは難しいと考えられる.本研究では,データ分析の熟練者はプログラムを適切に再利用しているという仮説に基づいて,Kaggle で定義されている熟練度の異なる作者が作成したプログラムに対して,類似するプログラム片の割合やライブラリの利用方法を比較する分析を行った.その結果,熟練度が高い作者ほど関数を多く定義し,類似するプログラム片の割合が少ない傾向にあることがわかった.また,使用されるライブラリの種類に大きな差異は見られなかった.これらの結果から,プログラム片の再利用の観点でデータ分析の初学者が熟練者に近づくには,多くのライブラリを学習することより,類似する処理がある場合には自作関数を定義するような工夫が重要であると考えられる.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ