基于贝叶斯网络的隐私数据研究.pdf

上传人：自信****多点

文档编号：2112154

上传时间：2024-05-16

格式：PDF

页数：4

大小：1.55MB

《基于贝叶斯网络的隐私数据研究.pdf》由会员分享，可在线阅读，更多相关《基于贝叶斯网络的隐私数据研究.pdf（4页珍藏版）》请在咨信网上搜索。

1、 2023 年第 9 期119计算机应用信息技术与信息化参考文献：1 DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding J.ArXiv,2019,abs/1810.04805.2 SUN Y,WANG S,LI Y,et al.ERNIE:enhanced representation through knowledge integration J.ArXiv,2019,abs/1904.09223.3 MIKOLOV T,

2、SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality J.ArXiv,2013,abs/1310.4546.4 GRAWE M F,MARTINS C A,BONFANTE A G.Automated patent classification using word embeddingC/2017 16th IEEE International Conference on Machine Learning and Applications(ICML

3、A).Cancun:IEEE,2017:408-11.5 XIAO L,WANG G,ZUO Y.Research on patent text classifi cation based on Word2Vec and LSTMC/Proceedings of the 2018 11th International Symposium on Computational Intelligence and Design(ISCID).Hangzhou:IEEE,2018.6 LI S,HU J,CUI Y,et al.DeepPatent:patent classification with c

4、onvolutional neural networks and word embedding J.Scientometrics,2018,117(2):721-44.7 LEE J S,HSIANG J.Patent classification by fine-tuning BERT language model J.World patent information,2020,61(7):101965.8 陆晓蕾,倪斌.基于预训练语言模型的 BERT-CNN 多层级专利分类研究 J.中文信息学报,2021,35(11):70-79.【作者简介】雷海卫（1980），博士，副教授，研究方向：大

5、数据技术、自然语言处理。李帆（1997），硕士研究生，研究方向：自然语言处理、文本分类。李成奇（1999），硕士研究生，研究方向：自然语言处理、文本分类。（收稿日期：2023-03-15 修回日期：2023-04-23）基于贝叶斯网络的隐私数据研究石雪松1 殷丽凤1SHI Xuesong YIN Lifeng 摘要随着大数据技术在各个领域的广泛应用，如何保护个人隐私已经成为了需要解决的问题，在个人隐私保护方面，差分隐私保护模型已经成为对隐私数据保护的首选模型。将贝叶斯网络与差分隐私保护模型结合起来可以对数据提供有效的保护。针对贝叶斯网络随机选择首结点的问题进行改进，在 PrivBayes 的

6、基础上提出了改进算法 I-PrivBayes，对数据中的各个属性引入独立性权重，快速准确地选出首结点。通过实验表明方法能大幅度提升数据的准确性和隐私安全性。关键词差分隐私；贝叶斯网络；独立性权重 doi：10.3969/j.issn.1672-9528.2023.09.0261.大连交通大学软件学院辽宁大连 1160280 引言随着大数据技术逐渐成熟，数据隐私也变得越来越透明化，数据化的时代给人们的生活带来了不少便利，同时也带来了个人隐私泄露问题。现阶段关于数据的保护机制还不是很完善，如何更好地保护个人隐私成为当今研究的课题。文献 1 提出了差分隐私方法，运用数学推理证明克服了传统隐私保

7、护方法的缺陷，文献 2 在此基础上通过在原始数据中加入噪声来满足-差分隐私。文献 3 提出了将贝叶斯网络与差分隐私模型结合，该方法有效地对多维数据集进行转换生成低维数据集，并在其中运用差分隐私。文献 4提出的关于差分隐私技术的高维数据发布算法研究解决了数据隐私强度和可用性之间的关系。通过引入平滑敏感度机制，文献 5 提出了一种新的 PrivBayes 算法，它不仅能够实现差分隐私，还能够有效地减少噪声，进而大大提升了联合分布的准确性。以上算法在构建贝叶斯网络时对于首结点的选取过于随2023 年第 9 期120计算机应用信息技术与信息化机，导致最后生成的数据集可用性大大降低，影响实验结果。本文主

8、要针对差分隐私以及贝叶斯网络的这一缺陷，提出了独立性权重贝叶斯网络构建，在原有的基础上针对数据中的属性值引入独立性权重，快速找出首结点，更好地构建出贝叶斯网络，并对原有的连续性数据运用聚类进行离散化处理。1 相关知识本节给出差分隐私的相关概念6-12、差分隐私的数据保护框架、贝叶斯网络13、海格林平均距离14以及连续数据离散化15 等相关知识。1.1 差分隐私概念定义 1（邻近数据集）：当两个数据集 C1和 C2拥有相同的特征时，如果它们之间只有一条记录不同，那么它们就被视为邻近数据集。例：现有两个数据集 C1和 C2，C1=1,2,3，C2=1,2,3,4，称 C1和 C2为邻近数据集。定义

9、 2（差分隐私）：数据集 C1和 C2在给定的随机算法上输出结果为，若 F 与邻近数据集 C1和 C2满足公式：12()()Pr F CSePr F CS （1）式中：表示事件发生的可能性，参数表示隐私保护预算，则算法 F 满足-差分隐私保护。Laplace 机制是一种有效的隐私保护方法，它将随机噪声分配到查询结果中，以实现-差分隐私的有效性。在位置参数为 O 和尺度参数为 b 的情况下，Lap(b)机制的概率密度函数表示为：1|()exp()2xp xb=（2）设 D 是一种随机算法，它的输入是数据集 B，输出结果是 R Range，这就是所谓的指数机制。q(B,R)是一个可用性函数，q 则

10、是它对特定变量的反应程度。若 D 以正比于从 Range 中选择并输出 r。1.2 差分隐私的数据保护框架保护差分隐私数据的方法有两种：一种是通过交互来实现，另一种则采取非交互来实现。这两种方法都旨在提升数据的可用性，并保护差分隐私。图 1 提供了一种全新的交互式安全防护框架，当用户向数据库提出请求时，系统会根据K 的处理结果，自动剔除噪音，以确保用户的隐私安全。图 1 交互式保护框架图 2 展示了一种非交互式的保护框架，它能够根据用户提供的信息特征，自动调整发布的内容，并且采用先进的隐私算法，以确保用户的隐私安全。此外，用户还可以通过查询生成的数据库，获得更加准确的结果。图 2 非交互式保护

11、框架1.3 贝叶斯网络贝叶斯网络 N 是一种有向无环图，它可以用来描述结点之间的关系，从而更好地理解它们之间的属性和相互关联性。其主要由三部分构成，主要由有向无环图表示。X 是网络中结点的集合。A 代表的是网络中有向边的集合，是网络参数。贝叶斯网络有效地表达了属性间的独立关系。因此，贝叶斯网络所表示的所有结点的联合概率就可以表示为各结点条件概率的乘积。根据条件独立性假设，贝叶斯网络对联合概率分布 P 进行了详细的分解，最终得出的结果如下：（3）式中：n 为结点数；Xi为第 i 个结点；Pa(Xi)为 Xi的父结点集。定义 616：贝叶斯网络可以用一个属性字段结点和父结点集合来表示，其中属性字段

12、结点分别为(W1,1),(W2,2),(Wi,i)。从该定义中，可以得到如下信息。（1）Wi（id）为属性字段集合中一个属性字段。（2）i（id）为属性字段 Wi父结点的集合。1.4 海格林平均距离（average Hellinger distance）在统计学中海格林平均零距离是描述两个概率分布之间的相似性。假设有三个概率 p、q 和 z，z 相对于 p、q 这两个概率绝对连续，则 p 与 q 的 Hellinger 距离为：221(,)()2Hp qdpdqdz=（4）1.5 连续数据离散化常规的数据离散方法不能很好地将数据进行分类，本文对连续性分数据进行分类时，采用二分 K 均值算法对数

13、据进行离散化处理，最后得到符合要求的数据集。二分 K 均值算法是一种改进型的数据分类方法，它通过将原始数据按照 K 均值的方式进行分类，将其分为两类，然后从中选择一部分继续分类，直到达到给定的数量 K 时，算法结束。2 基于独立性权重的贝叶斯网络差分隐私数据算法本节给出独立性权重相关知识17以及算法运算的整体流程与步骤。独立性权重是一种客观赋权法。通过分析指标项的复相关系数，可以更好地反映出指标之间的共线性关系，从而更 2023 年第 9 期121计算机应用信息技术与信息化容易用其他指标的线性组合来表达。因此，该方法的核心思想是通过比较这些指标的复相关系数，来确定它们的权重。独立性权重满足以下

14、公式：()()()()1221(1,2,.,)mjijmjixxxxRjmxxxx=（5）式中：为除去的剩余矩阵；=mean(x)。通过对复相关系数的倒数进行标准化，可以获取 x 的最终权重值，以便进行更好的分析和评估。1231111,.,mRR RRR=（6）111jjmjjRWR=（7）独立性权重算法的主要流程如图 3 所示，图 3 展示了独立性权重的运算过程。图 3 独立性权重运算流程在构建贝叶斯网络时加入独立性权重，将贝叶斯网络 N中独立性权重最小的属性字段作为首结点。图 4 主要对算法整体的流程进行了描述。图 4 算法流程表 1 展示了贝叶斯网络的构建。表 1 Network 伪代码

15、1.Generate Bayesian NetworkInput:数据集 W、参数 K、属性个数 dOutput:贝叶斯网络 N1:N=,V=;2:Pick the attribute with the least indepen-dence weight W1;3:add(W1,)to N and add W1 to V;4:For i=2 to d;5:=;6:For each and ;7:add(W,)to;8:End for 9:select a pair(Wi,i)using exponent mechanism with privacy budget;10:Add (Wi,i)t

16、o N;add Wi to V;11:End for12:Return N通过上述算法，可以将高维数据集转换为具有 k 度的贝叶斯网络，即每个属性结点的最大入度不能超过 k，从而实现高效的数据处理。（1）将一个没有 AP 对的贝叶斯网络 N 初始化，V 是一个包含已存在于 N 的属性段结点的父结点集合。（2）选取属性集合 W 中独立性权重最小的一个属性作为初始结点加入 N。（3）通过贪婪算法，将剩余属性字段结点中互信息最大的 AP 对加入 N，以提高整体性能。在选择完所有的属性结点以后，算法停止运行并将构建好的贝叶斯网络 N 返回。（4）其中的表示所有子集元素个数为 min(k,|V|)，为属

17、性字段 Wi父结点的集合。表 2 为 Noisy Conditionals 的伪代码。表 2 Noisy Conditionals 伪代码2.Noisy ConditionalsInput:数据集 W、贝叶斯网络 N、参数 K；Output:低维数据集P*1:P*=;2:For i=k+1 to d;3:materialize the joint distribution DtWi,i;4:add noise to Dt*Wi,i;5:set negative values in Dt*Wi,i to 0 and normalize;6:Derive Dt*Wi|i from Dt*Wi,i,

18、add it to P*;7:End for8:For i=1 to k;9:Derive Dt*Wi|i from Dt*Wi+1,i+1,add it to P*;10:End for11:Return P*上述算法通过构建d-k个噪声条件分布Dt*Wi|i，i k+1,d 并且满足(/2)-差分隐私，算法在差分隐私模型加入噪声的逻辑处理框架，来达到高维数据集的隐私安全发布。2023 年第 9 期122计算机应用信息技术与信息化3 算法实现和结果分析3.1 实验数据和实验环境本次实验采用 UCI 公开数据集 Adult 数据集，数据集中共有 32 561 条人口普查数据，主要选取了其中 1

19、4 个属性进行实验分析。（1）操作系统：Windows10_64 位。（2）硬件参数：处理器 11th Gen Intel(R)Core(TM)i7-11800H 2.30 GHz。（3）编译环境：Pycharm。3.2 实验结果分析本次实验主要通过 -away 来验证算法的性能与有效性，实验中-away 的查询取值为 2-away。隐私预算的取值分别为0.05、0.1、0.2、0.4、0.6、0.8，其对应的K值分别为1、2、3、4、5、6。主要评判标准为海格林平均距离（average hellinger distance），结果如图 5 所示。图 5 2-away由图 5 可以判断出，P

20、r ivBayes 和 I-PrivBayes 两个模型，可以看到在-away 上，在 I-PrivBayes 中当分别取 0.05、0.1、0.2、0.4、0.6、0.8 时，相对于 PrivBayes，I-PrivBayes平均海林格距离分布均有下降，在隐私预算取值相对较小时 I-PrivBayes 下降的幅度较大，由此可知，在相同条件下，I-PrivBayes 生成数据的分布比 PrivBayes 生成数据的分布更接近原始数据，保证了数据有更优的准确性和可用性。4 结论本文主要针对在 PrivBayes 中贝叶斯网络随机首结点随机选取时不能真实有效地反映原始数据集，并影响最后生成数

21、据集的质量。为了解决这类问题，本文提出了 I-PrivBayes，其通过在贝叶斯网络中加入独立性权重来确定其首结点，更好地构建贝叶斯网络，更好地还原原始数据集，实验表明在相同条件下 I-PrivBayes 提高了数据的可用性。后续会针对数据集中非敏感属性（如年龄、性别、身高等）和敏感属性（如姓名、身份证号、收入等）进行分类，针对不同属性的敏感程度加入不同的噪声，确定数据集的可用性和合理性。参考文献：1 DW ORK C,MCSHERRY F,NISSIM K,et al.Calibrating noise to sensitivity in private data analysisC/Pro

22、ceedings of the 3th Theory of Cryptography Conference(TCC).New York,USA:Heidelberg:Springer,2006:363-385.2 HASAN A S M T,JIANG Q.A general framework for privacy preserving sequential data publishingC/2017 31st International Conference on Advanced Information Networking and Applications Workshops(WAI

23、NA).Taipei,Taiwan:IEEE,2017,519-524.3 张啸剑,孟小峰.面向数据发布和分析的差分隐私保护 J.计算机学报,2014,37(4):927-949.4 马苏杭.基于差分隐私保护技术的高维数据发布算法研究D.贵州:贵州大学,2021.5 李明珠.基于平滑敏感度的贝叶斯网络隐私数据发布方法D.呼和浩特:内蒙古大学,2019.6 朱徐亚.差分隐私保护下的高维数据集发布研究D.淮南:安徽理工大学,2022.7 陈思阳.改进贝叶斯网络的个性化隐私数据发布方法 J.软件导刊,2021,20(9):213-216.8 齐雪剑.基于贝叶斯网络的差分隐私数据发布 D.

24、呼和浩特:内蒙古大学,2021.9 董银霜.基于贝叶斯网络的差分隐私保护数据发布 D.淮南:安徽理工大学,2019.10 张建川.基于边相关贝叶斯网络的差分隐私数据发布方法 D.哈尔滨:哈尔滨工程大学,2018.11 吴英杰.差分隐私统计数据发布 M.北京：清华大学出版社,2022.12 肖彪 ,闫宏强,罗海宁,等.基于差分隐私的贝叶斯网络隐私保护算法的改进研究 J.信息网络安全,2020,20(11):75-86.13 周志华.机器学习 M.北京：清华大学出版社,2016.14 张益铭.基于 Hellinger 距离相似性度量的协同过滤推荐算法研究 D.武汉:华中师范大学,2021

25、.15 沈郭鑫,蒋中云.基于密度和中心指标的 Canopy 二分 K-均值算法优化 J.计算机工程与科学,2022,44(2):372-380.16 王良 ,王伟平,孟丹.基于加权贝叶斯网络的隐私数据发布方法 J.计算机研究与发展,2016,53(10):2343-2353.17 何思俊,支锦亦.基于 AHP-独立性权数法的列车旅客界面设计评价 J.西南交通大学学报,2021,56(4):897-904.【作者简介】石雪松（1997），男，黑龙江哈尔滨人，硕士，大连交通大学，研究方向：大数据挖掘、差分隐私。殷丽凤（1976），女，黑龙江海伦人，博士，大连交通大学副教授，研究方向：大数据挖掘与分析、不确定 XML规范化处理、查询。（收稿日期：2023-03-07 修回日期：2023-04-17）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于贝叶斯网络隐私数据研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。