基于聚类结构编码的差分隐私异构数据发布.pdf
《基于聚类结构编码的差分隐私异构数据发布.pdf》由会员分享,可在线阅读,更多相关《基于聚类结构编码的差分隐私异构数据发布.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 卷第 期计算机应用与软件 年 月 基于聚类结构编码的差分隐私异构数据发布高海燕高晋阳郑志华(晋中职业技术学院电子信息学院山西 晋中 )(中北大学仪器与电子学院山西 太原 )收稿日期:。国家自然科学基金项目();年山西省高等学校大学生创新创业训练计划项目()。高海燕,讲师,主研领域:计算机应用。高晋阳,副教授。郑志华,讲师。摘要针对异构数据发布的隐私保护以及数据挖掘泛化性问题,提出一种用于聚类分析的异构数据差分隐私发布方案。为了解决处理隐私信息后缺乏正确引导的问题,将原始数据分组为集群,并利用集群标签对数据的集群结构进行编码,还为异构数据定制了一个同时考虑关系属性和集值属性的距离度量集群。在
2、保留集群结构的同时迭代地概括原始数据。进一步在原始数据中加入噪声从而满足 差分隐私的要求。在满足差分隐私原则的前提下,提出一种同时处理关系数据和集值数据的不确定性算法,不同类型的数据以类似的方式进行匿名化。通过实验验证了该方法能够有效解决异构数据发布问题。关键词数据发布异构数据差分隐私聚类分析中图分类号 文献标志码 :(,)(,),引言大数据时代下,信息已经成为了一种极为重要的战略资源,尤其在医疗、科研、军事等领域 。如何在发布数据的同时有效地保护隐私信息,同时尽可能多地保留受干扰数据的效用以进行后续数据分析成为了研究的重点 。异构数据通常由关系数据和集值数据组成,因此异构数据的隐私保护一般分
3、为关系数据匿名化与集值数据匿名化 。对于关系数据匿名化问题,文献 隐藏识别属性和敏感属性之间的相关性,并生成 匿名相似性数据以显示身份和属性。等 通过在泛化过程中添加不确定性,可以有效发布差分隐第 期高海燕,等:基于聚类结构编码的差分隐私异构数据发布 私数据。对于集值数据匿名化问题,文献 提出一种数据分区技术,用于断开标识属性之间的关联,并在最终查询结果中添加噪声。文献 提出 匿名模型,通过区分集值属性中的敏感项和非敏感项,满足多样性相关性来防止属性泄漏。虽然上述方法取得了一定的效果,但是许多方法均是单独处理关系数据或集值数据,对于异构数据来说是否有效还需进一步研究。针对异构数据匿名化,也有一
4、系列研究,文献 提出一个差分隐私回归分析模型,将目标函数转化为多项式形式,并对多项式表示的系数加入噪声。文献 将差分隐私与决策树相结合,提供分类器的隐私保护,还使用小批量梯度下降算法来保护训练数据的隐私。虽然这些工作针对某些特定数据考虑了异构数据的聚类性能,但是缺乏泛化性能,即上述匿名化过程不考虑一般性的聚类分析任务,因此用户在使用时缺乏灵活性与实用性。针对上述问题,提出了一种用于聚类分析的异构数据差分隐私发布方案。利用聚类标签对聚类结构进行编码,并结合泛化技术和输出扰动来掩盖原始数据。通过实验验证了该方法能够有效解决异构数据发布问题。差分隐私代表一个有限的数据域,代表一条具有 属性的记录。数
5、据集 是 一组从数据域 中采样出来的 个记录。数据集 和 是两个相邻数据集,当且仅当 或 ,其中 表示该数据集,是通过在 数据集中添加 记录而生成的结果,差分隐私的定义如下所示。定义 (差分隐私)对于任何一对数据集 和,或者对于任何一组可能被消除的输出,它的随机机制 是差分隐私的。即:()()()()参数 被称为隐私预算,它是通过随机机制 来控制隐私保证的程度。越小意味着隐私保护程度越高。默认为一个正数并且它的数值通常比较小,例如:、和 。附加噪声的量不仅取决于隐私预算 还取决于随机机制的全局敏感度。全局敏感度反映了两个相邻数据集上函数输出的最大差分。定义 (全局敏感度)给定一个随机函数 :,
6、对于任意一对相邻数据集 和,的全局敏感度是:()()()定义 (拉普拉斯机制)给定一个数据集 ,隐私预算 和一个随机函数 :,其全局敏感度是 ,算法()()()满足 差分隐私。定义 (指数机制)给定一个数据集 ,输出的范围 ,隐私预算 ,和一个效用的函数 :(,),机制 以与 (,)()成正比的概率选择输出 来满足 差分隐私。差分隐私有两个重要的属性。它们在判断一种机制是否满足差分隐私中起着重要的作用。属性 (顺序组合),是一组隐私机制。如果每个 都提供一个 差分隐私并且 在数据集上顺序执行,则 将提供()差分隐私。顺序组合表明当许多差分隐私被应用于相同的数据集时隐私预算和噪声会线性增加。属性
7、(平行组合),是一组隐私机制。如果每个 在不相交的数据集子集上提供 差分隐私,则 将提供(,)差分隐私。平行组合表明当应用于不同数据集子集中的一组差分隐私,其隐私保护程度取决于 的最大值。问题描述假设数据所有者希望通过将特定于个人的数据发布给数据接受方来进行聚类分析。这些原始数据可以被定义为一组记录 ,每个记录()代表一种具有 属性 ,的个人信息。假定每一种属性()可以是分类的,数值的或集合值的,并且为每个分类或集合值的属性给出了分类树。在发布之前,应删除明确的标识符,例如名称和驾驶执照编号。聚类分析的任务是将对象分成若干组,使相似的对象在组中,不同的对象在不同的组中,聚类的结果可以用聚类结构
8、来表示。定义 (聚类结构)设 是聚类的个数,数据集 ,的聚类结构被定义为一个矩阵 ,矩阵的每个元素 ,(,)代表了记录 到第 个聚类的聚类分配,也就是说,当,等于时记录 属于第 个簇,而当 ,等于时 不属于第 个簇。基于上述假设,有如下定义:定义 (聚类分析差分隐私异构数据)给定一个数据集 ,和隐私预算 ,对异构数据进 计算机应用与软件 年行聚类分析的匿名化问题是使数据集 使不同类型的属性上匿名化。例如:满足 差分隐私并且尽可能与 的聚类结构保持相似的匿名数据集 ,。异构数据发布方法 差分隐私的泛化算法首先,数据所有者在原始数据集 上使用一种聚类算法来确定初始的聚类结构,同一聚类中的记录有相同
9、的聚类标签。与数据集 相比,标记的数据集具有 个属性 ,其中 表示类标签;即除了 中的原始属性 ,中的每条记录 也有一个类标签。因此,保存 的聚类结构意味着在匿名化过程中保留识别这些类标签的能力,然后通过在 上执行所提出的差分隐私算法来获取匿名数据集 。如果 不够令人满意,则数据所有者可以返回到第一步并且调整算法因子,即分类树、聚类算法的选择和聚类的数量。重复上述步骤直到得到效能满意的 。第四步,数据所有者将数据集 释放给数据接收者。为异构数据提出了一种称为 的差分隐私的泛化算法,该算法基于自上而下的专业化技术 。专业化从最一般的状态开始,然后通过将某些值替换为更具体的值来迭代下降,直到达到预
10、定义的专业化数量。专业化过程就是根据相应的分类树,由表示将父值 ()替换为其直接连接的子值 ()。例如,图 中 (,),(),和 (),交替使用术语“子节点”和“子值”。在下文中,还将可以替换为其直接关联的子值的父值称为“”。图 为数据专业化过程。首先,将每个值都概括为图 所示对应的分类树上的最上面的值,并且初始值 为 ,。假设将 剪切以向下切割,然后由于 ,和当前 被更新为 ,。图 分类树示意图确保专业化过程满足 差分隐私的关键是确定匿名化的每一步都是差分隐私的。其关键步骤包括切割选择和划分记录。选择用指数机制来选择割集是因为该机制是为离散备选方案设计的。根据定义 可知,这个过程是需要效用函
11、数的。另外采用属性与类标签之间的信息增益作为效用函数。这是因为切割上的每个专业化的过程中都倾向于通过生成特定的属性值来增加信息,并且信息增益能够基于这些值使类标签“更可预测化”。计算数据集 中属性值 的熵的方法为:()()()式中:()数据集 中的 属性域,是 中的一组数据记录,其中 的属性值可以一般化为 ,是包含类标签的数据集 的一组数据记录,是数据集的大小。一般化为其子值的属性值 的效用函数定义为:()()()()()式中:()是 的子值,并且 ()。()的全局敏感度是 (),其 中()是 属性域的大小。因为()的取值范围是 (),()()的取值范围是()。因此,无论是添加还是删除任何记录
12、,()的变化都不大于 ()。在每一次的专业化过程中,首先通过式()完成每个割集候选的效用分数,然后根据指数机制有效地选择一个割以向下划分。使用上述分类树中的数据,根据式()中 效用分数计算为:()()()()()()()()()()与上述计算类似,(,),(),根据指数机制,、被选择为切割的可能性分别是 、和 。选择剪切后,原始记录分为不同的组。因为它们具有预定义的分类树,所以分类属性的划分策略是固定的。因此分类属性的分区函数的全局敏感性为 。根据当前选择的分类切割和相应的分类树,记录分区第 期高海燕,等:基于聚类结构编码的差分隐私异构数据发布 的步骤应满足差分隐私。与分类属性相比,集值属性专
13、门化的区别在于子节点组合的存在。假设选择一个设定值 ,在它对应的分类树上有 个子节点。在 上的一般化将产生总共()个子集。为了提高 的效率,应尽早地剪掉子集。由于差分性隐私需要不确定性,因此通过验证其噪声大小是否大于阈值,将其视为“非空”。也就是说,如果子分区的噪声大小大于阈值,则保留该子分区。否则,将其视为“空”,应该修剪。阈值可以由数据所有者控制。如文献 中所述,无须为数字属性提供分类树。如果选择了数字分割以向下分割,则在搜索分割的分割值时将动态生成或扩展其相应的分类树。不应为分割随机选择分割值,因为从不包含该值的数据集中选择相同值的可能性为 。这意味着对数值属性的分割值的选择是概率性的。
14、再次使用指数机制,计算数字切割中每个属性值的效用得分,并使用指数机制选择属性值作为数字切割的分割值。选择属性值 作为数字割点 的分割值的概率定义为:(())()(())()式中:是隐私预算,是式()的全局敏感度,()(或 ()是 (或)的效用分数,()是剪切 的属性值的集合。如果选择 ,)进行分割,我们将计算每个属性值在 到 范围内的效用得分,并且概率地选择一个值作为 ,)的分割值。考虑 类属性。然后,根据式(),()计算如下:()(),()(),()()()(),(),()在计算完所有的 ()后,式()用于计算每个值被选作实际拆分值的概率。首先,为 数值属性初始化分割值,其中 是数值属性的数
15、量。然后,针对每一轮专业化,概率性地选择切割。如果切割是设置值的,则应验证其非空子节点,以确定它们是否真的是“非空”;如果切割为数字,则为其选择分割值。请注意,这两种情况是互斥的。每个叶分区节点中的确切记录数不能直接发布,因为对于不同的数据,该数目可能不同。可以通过在每个节点中的记录数量上增加噪声来掩盖这种差分。隐私分析定理 满足 差分隐私。证明:通过指数机制为 个数字属性中的每一个初始化分割值。每一个指数机制的隐私预算成本为 ,因此根据顺序组成属性保证 差分隐私。使用指数机制选择要切割的切口,这一步就可以满足 差分隐私。通过拉普拉斯机制使用 隐私预算来对值进行割集产生“非空”分区节点。并使用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 结构 编码 隐私 数据 发布
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。