解答固有のソースコード片に着目したプログラミング試験解答からの盗用検出手法の提案

機関リポジトリ HANDLE オープンアクセス

抄録

ソフトウェア開発者の採用活動において,志望者の技術力を評価するためにプログラミング試験を実施する企業が増加している.遠隔にいる志望者に対してオンラインで実施するプログラミング試験では,志望者が他者の解答をそのまま,あるいは改変して提出する盗用行為が対面での試験よりも容易であり,志望者の技術力を正しく評価できないリスクがある.そのため,提出された多数の解答から互いに類似しているソースコードの組を盗用の可能性ありとして検出する手法が求められており,従来より,最長共通部分列の計算などの類似度計算の手法が盗用検出として活用されている.本研究では,そのような類似度の 1 つである N-gram の Jaccard 係数に加えて,少数の解答にのみ出現する N-gram に重みを付けたコサイン類似度を組み合わせて,ソースコードが類似しているだけでなく,それらの解答にのみ固有の表現が類似しているような解答者の組を,盗用の可能性が高いものとして抽出する手法を提案する.提案手法の性能を評価するために,公開データセット SOCO を用いた実験を行った.その結果,提案手法は既存ツール JPlag と比較して F-measure,Averege Presicion の 2 つの評価指標で既存ツールよりも高い性能を達成した.また,ある企業の採用試験のデータセットに対して提案手法を適用した結果,企業の担当者が解答時間に基づいて疑わしいと考えた受験者の 42% は提案手法の結果と一致したほか,解答時間だけでは見逃していたと考えられる事例を検出できることを確認した.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ