基于贝叶斯网络的隐私数据研究.pdf
《基于贝叶斯网络的隐私数据研究.pdf》由会员分享,可在线阅读,更多相关《基于贝叶斯网络的隐私数据研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、 2023 年第 9 期119计算机应用信息技术与信息化参考文献:1 DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding J.ArXiv,2019,abs/1810.04805.2 SUN Y,WANG S,LI Y,et al.ERNIE:enhanced representation through knowledge integration J.ArXiv,2019,abs/1904.09223.3 MIKOLOV T,
2、SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality J.ArXiv,2013,abs/1310.4546.4 GRAWE M F,MARTINS C A,BONFANTE A G.Automated patent classification using word embeddingC/2017 16th IEEE International Conference on Machine Learning and Applications(ICML
3、A).Cancun:IEEE,2017:408-11.5 XIAO L,WANG G,ZUO Y.Research on patent text classifi cation based on Word2Vec and LSTMC/Proceedings of the 2018 11th International Symposium on Computational Intelligence and Design(ISCID).Hangzhou:IEEE,2018.6 LI S,HU J,CUI Y,et al.DeepPatent:patent classification with c
4、onvolutional neural networks and word embedding J.Scientometrics,2018,117(2):721-44.7 LEE J S,HSIANG J.Patent classification by fine-tuning BERT language model J.World patent information,2020,61(7):101965.8 陆晓蕾,倪斌.基于预训练语言模型的 BERT-CNN 多层级专利分类研究 J.中文信息学报,2021,35(11):70-79.【作者简介】雷海卫(1980),博士,副教授,研究方向:大
5、数据技术、自然语言处理。李帆(1997),硕士研究生,研究方向:自然语言处理、文本分类。李成奇(1999),硕士研究生,研究方向:自然语言处理、文本分类。(收稿日期:2023-03-15 修回日期:2023-04-23)基于贝叶斯网络的隐私数据研究石雪松1 殷丽凤1SHI Xuesong YIN Lifeng 摘要 随着大数据技术在各个领域的广泛应用,如何保护个人隐私已经成为了需要解决的问题,在个人隐私保护方面,差分隐私保护模型已经成为对隐私数据保护的首选模型。将贝叶斯网络与差分隐私保护模型结合起来可以对数据提供有效的保护。针对贝叶斯网络随机选择首结点的问题进行改进,在 PrivBayes 的
6、基础上提出了改进算法 I-PrivBayes,对数据中的各个属性引入独立性权重,快速准确地选出首结点。通过实验表明方法能大幅度提升数据的准确性和隐私安全性。关键词 差分隐私;贝叶斯网络;独立性权重 doi:10.3969/j.issn.1672-9528.2023.09.0261.大连交通大学 软件学院 辽宁大连 1160280 引言随着大数据技术逐渐成熟,数据隐私也变得越来越透明化,数据化的时代给人们的生活带来了不少便利,同时也带来了个人隐私泄露问题。现阶段关于数据的保护机制还不是很完善,如何更好地保护个人隐私成为当今研究的课题。文献 1 提出了差分隐私方法,运用数学推理证明克服了传统隐私保
7、护方法的缺陷,文献 2 在此基础上通过在原始数据中加入噪声来满足-差分隐私。文献 3 提出了将贝叶斯网络与差分隐私模型结合,该方法有效地对多维数据集进行转换生成低维数据集,并在其中运用差分隐私。文献 4提出的关于差分隐私技术的高维数据发布算法研究解决了数据隐私强度和可用性之间的关系。通过引入平滑敏感度机制,文献 5 提出了一种新的 PrivBayes 算法,它不仅能够实现差分隐私,还能够有效地减少噪声,进而大大提升了联合分布的准确性。以上算法在构建贝叶斯网络时对于首结点的选取过于随2023 年第 9 期120计算机应用信息技术与信息化机,导致最后生成的数据集可用性大大降低,影响实验结果。本文主
8、要针对差分隐私以及贝叶斯网络的这一缺陷,提出了独立性权重贝叶斯网络构建,在原有的基础上针对数据中的属性值引入独立性权重,快速找出首结点,更好地构建出贝叶斯网络,并对原有的连续性数据运用聚类进行离散化处理。1 相关知识本节给出差分隐私的相关概念6-12、差分隐私的数据保护框架、贝叶斯网络13、海格林平均距离14以及连续数据离散化15 等相关知识。1.1 差分隐私概念定义 1(邻近数据集):当两个数据集 C1和 C2拥有相同的特征时,如果它们之间只有一条记录不同,那么它们就被视为邻近数据集。例:现有两个数据集 C1和 C2,C1=1,2,3,C2=1,2,3,4,称 C1和 C2为邻近数据集。定义
9、 2(差分隐私):数据集 C1和 C2在给定的随机算法上输出结果为,若 F 与邻近数据集 C1和 C2满足公式:12()()Pr F CSePr F CS (1)式中:表示事件发生的可能性,参数表示隐私保护预算,则算法 F 满足-差分隐私保护。Laplace 机制是一种有效的隐私保护方法,它将随机噪声分配到查询结果中,以实现-差分隐私的有效性。在位置参数为 O 和尺度参数为 b 的情况下,Lap(b)机制的概率密度函数表示为:1|()exp()2xp xb=(2)设 D 是一种随机算法,它的输入是数据集 B,输出结果是 R Range,这就是所谓的指数机制。q(B,R)是一个可用性函数,q 则
10、是它对特定变量的反应程度。若 D 以正比于从 Range 中选择并输出 r。1.2 差分隐私的数据保护框架保护差分隐私数据的方法有两种:一种是通过交互来实现,另一种则采取非交互来实现。这两种方法都旨在提升数据的可用性,并保护差分隐私。图 1 提供了一种全新的交互式安全防护框架,当用户向数据库提出请求时,系统会根据K 的处理结果,自动剔除噪音,以确保用户的隐私安全。图 1 交互式保护框架图 2 展示了一种非交互式的保护框架,它能够根据用户提供的信息特征,自动调整发布的内容,并且采用先进的隐私算法,以确保用户的隐私安全。此外,用户还可以通过查询生成的数据库,获得更加准确的结果。图 2 非交互式保护
11、框架1.3 贝叶斯网络贝叶斯网络 N 是一种有向无环图,它可以用来描述结点之间的关系,从而更好地理解它们之间的属性和相互关联性。其主要由三部分构成,主要由有向无环图表示。X 是网络中结点的集合。A 代表的是网络中有向边的集合,是网络参数。贝叶斯网络有效地表达了属性间的独立关系。因此,贝叶斯网络所表示的所有结点的联合概率就可以表示为各结点条件概率的乘积。根据条件独立性假设,贝叶斯网络对联合概率分布 P 进行了详细的分解,最终得出的结果如下:(3)式中:n 为结点数;Xi为第 i 个结点;Pa(Xi)为 Xi的父结点集。定义 616:贝叶斯网络可以用一个属性字段结点和父结点集合来表示,其中属性字段
12、结点分别为(W1,1),(W2,2),(Wi,i)。从该定义中,可以得到如下信息。(1)Wi(id)为属性字段集合中一个属性字段。(2)i(id)为属性字段 Wi父结点的集合。1.4 海格林平均距离(average Hellinger distance)在统计学中海格林平均零距离是描述两个概率分布之间的相似性。假设有三个概率 p、q 和 z,z 相对于 p、q 这两个概率绝对连续,则 p 与 q 的 Hellinger 距离为:221(,)()2Hp qdpdqdz=(4)1.5 连续数据离散化常规的数据离散方法不能很好地将数据进行分类,本文对连续性分数据进行分类时,采用二分 K 均值算法对数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 贝叶斯 网络 隐私 数据 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。