ベイジアンネットワークによる合成データ生成時のランダム性が持つ差分プライバシー性の評価

三浦, 尭之, 紀伊, 真昇, 芝原, 俊樹, 市川, 敦謙, 山本, 充子, 千田, 浩司

ベイジアンネットワークなどのグラフィカルモデルによる合成データの生成は，テーブルデータに対して高い品質の合成データを生成することが知られている．しかし，理論的なプライバシー保証のために差分プライバシー化することで，合成データの品質が落ちてしまうことが課題である．本研究では，ベイジアンネットワークのパラメータ学習を最尤推定から最大事後確率推定にすることで，学習のロバスト性をあげつつも意図的なノイズを足すことなく差分プライバシー性が保証できることを示した．また，提案メカニズムが満たす(ε, δ)-差分プライバシーのε の値を具体的に導出した．この値は，データセットのフォーマットに関する情報と，パラメータの分布の事前分布として採用するディリクレ分布のハイパーパラメータの情報からなる値である．さらに，人工的なデータセットを作成して，提案手法が満たす差分プライバシーのε の値を具体的に計算し，生成された合成データの品質評価を行った．

The synthetic data generation techniques by graphical models such as Bayesian networks are known to synthesize high-quality synthetic data for tabular formatted datasets. However, differential privacy for the theoretical privacy guarantee degrades the quality of synthetic data. In this paper, we propose a Bayesian network learning method that uses maximum-posterior probability estimation instead of maximum likelihood estimation. This method can satisfy differential privacy without adding noise. We also derived a concrete value of ε from information about the format of the dataset and the hyperparameters of the Dirichlet distribution that is employed as the prior distribution of the parameters. Furthermore, we evaluated the utility of the proposed method using several artificial datasets.

ベイジアンネットワークによる合成データ生成時のランダム性が持つ差分プライバシー性の評価

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

ベイジアンネットワークによる合成データ生成時のランダム性が持つ差分プライバシー性の評価

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について