データ分析プログラムにおけるライブラリ関数利用方法の探索的分析

抄録

ビジネスにおけるデータ分析のためのプログラミング言語として,初心者が学習しやすく,データ分析に適したライブラリが豊富である Python が注目されている.データ分析における Python プログラムは,アプリケーション開発で作られるプログラムよりも比較的短く,単純な構造で実装されていることが報告されており,その特徴を利用したプログラム作成の支援が可能であると考えられる.一方で,データ分析において実際にどのようなライブラリを用いて,どのような典型的な処理が実装されているのかは明らかとなっていない.そのため,たとえばデータ加工に用いられるライブラリである Pandas を用いた関数呼び出しの列を自動合成する手法が既存研究で提案されているが,それが実プログラムにおいてどの程度有用であるかは不明である.本研究では,Python プログラムの実装支援技術を開発することを目的として,Kaggle で公開されているデータ分析プログラムがどのようなライブラリ関数を使用しているのかを調査する.その結果,利用頻度の高い 50 個の関数で約 240,000 件のプログラムのうち,52,007 件 (約 20 %) のプログラムを網羅できる一方で,全体では 90, 665 個の関数が使用されており,関数呼び出しの検索や推薦が重要となることを確認した.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ