プロンプト・チューニングは大規模言語モデルの安全性を高めるか?

書誌事項

タイトル別名
  • Does Prompt-Tuning Make Large Language Models More Secure?

抄録

大規模言語モデルを特定のタスクや事業ドメインに適用する場合,モデル構造や学習データセットの規模を考慮すると,パラメータ効率のよいファイン・チューニング(PEFT)が有用である.最新の研究では,大規模言語モデルは,学習データを記憶する能力が高いことが明らかになっており,メンバーシップ推論攻撃やデータ抽出攻撃に脆弱であることが指摘されている.しかしながら,先行研究では,大規模言語モデルにおけるPEFT手法として注目されるLoRAやPrompt-tuning(プロンプト・チューニング)に対する攻撃評価はほとんど行われていない.本稿では,LoRAやPrompt-tuningに対するメンバーシップ推論攻撃とデータ抽出攻撃を用いた学習データ漏えいリスクについて報告する.特に,チューニングするパラメータ数が小さく,モデル内部のパラメータをチューニングしないPrompt-tuningは,学習データ漏えいリスクが低いのかを検証する.代表的な大規模言語モデルであるGPT-2とファイン・チューニングの研究によく利用される3つのデータセットを用いた実験により,PEFT,特にPrompt-tuningは,学習データ漏えいリスクが比較的低いことを明らかにした.ただし,チューニングするパラメータ数に応じて学習データ漏えいリスクが増加する傾向にあるため,Prompt-tuningは安全性を高めるとは言い切れない.

When applying large language models (LLMs) to a specific task or business domain, parameter efficient fine-tuning (PEFT) is useful, considering the scale of the model architecture and the training dataset. Recent studies have revealed that LLMs are vulnerable to membership inference attacks and data extraction attacks because of the high capacity to memorize the training data. However, previous work has rarely evaluated these attacks on LoRA and Prompt-tuning, which have attracted attention as PEFT methods for LLMs. In this paper, we report the risk of training data leakage using membership inference attacks and data extraction attacks on LoRA and Prompt-tuning, which have not been revealed at the moment. In particular, we verify whether Prompt-tuning, which has fewer tuning parameters and does not tune parameters inside the model, has a low risk of training data leakage. Experiments using GPT-2 as a typical LLM and three datasets commonly used in fine-tuning studies show that PEFT, especially Prompt-tuning, tends to have a relatively low risk of training data leakage. However, the risk tends to increase with the number of parameters to be tuned, therefore it cannot be said Prompt-tuning makes LLMs more secure.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ