欠損率の高いプロジェクトデータを利用したプロジェクトの成否予測

出張, 純也, 菊野, 亨, 菊地, 奈穂美, 平山, 雅之

ソフトウェア開発プロジェクトから収集したデータを利用して，品質やコストなどを予測する研究が多く行われている．本研究では，通常のプロジェクトから収集される欠損の多いデータを利用して，プロジェクトの成否の予測を試みる．欠損率が高いので，2 段階の方法を提案する．最初に，未記入項目の多いメトリクスを削除し，次に予測に影響を与えると考えられるメトリクスだけに絞り込む．メトリクスの絞り込みには相関ルールマイニングを適用する．適用実験として，IPA/SEC のデータ白書として公開されているプロジェクトデータを利用して，プロジェクトの成否を設計工程の終了時に予測した．まず，設計工程終了時点では未だ値が定まらないメトリクスを削除した．その時点でのデータの欠損率は 43.8% になった．提案法を適用した結果，メトリクスを 7 個にまで絞り込みを行って，予測精度 82.8% が達成できた．

Many researches tried to predict quality and cost using project data set. Note that project data set is usually assured to be complete in the sense that all metrics data is filled out. But actually we are facing with public project data set which contain many incomplete data. In this paper we try to predict, after design phase, if a project will finish successfully or not based on such a public project data set. We propose two phases of refinements upon data set: (1) reduction of incomplete data and (2)extraction of meaningful metrics. The first reduction is just deletion of such metrics that contain many missing data. We then apply association rule mining for metrics extraction. For prediction of a project,we employ Bayesian Classifier as usual. We conducted an experimental evaluation on IPA/SEC data set which is collected from Japanese companies. The IPA/SEC data set consists of 237 projects and 69 metrics,and contains 43.8% of missing data. By applying the proposed method, 82.8% of accuracy was finally realized with only 7 metrics.

欠損率の高いプロジェクトデータを利用したプロジェクトの成否予測

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

欠損率の高いプロジェクトデータを利用したプロジェクトの成否予測

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について