一种基于GDK-means...贫困生信息隐私保护方法研究_刘晓娜.pdf
《一种基于GDK-means...贫困生信息隐私保护方法研究_刘晓娜.pdf》由会员分享,可在线阅读,更多相关《一种基于GDK-means...贫困生信息隐私保护方法研究_刘晓娜.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年 6 月 10 日第 7 卷 第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1130302023.062023.06收稿日期:2023-01-28基金项目:甘肃省高等学校创新基金项目(2020B-256)一种基于 GDK-means 的高校贫困生信息隐私保护方法研究刘晓娜1,王恺1,王成德1,徐彦强2(1.兰州文理学院,甘肃 兰州 730000;2.兰州工业学院,甘肃 兰州 730050)摘 要:高校在对贫困生的资助过程中,为保证公开、公平,会获取相关学生很多关键性隐私数据,如贫困原因、生源所在地、家庭收入、家
2、庭成员、在校消费等敏感隐私数据。同时资助的结果又要求必须公开以保证管理过程的公正性。针对高校对贫困生数据发布中的公开与隐私保护之间的矛盾,提出了一种基于 GDK-means 的隐私保护方法。在该算法下,在 K-means 聚类的基础上,对生成的簇进行簇内泛化,来对发布的敏感数据进行去隐私化处理,以达到用户隐私保护的目的,同时量化了处理所带来的信息丢失度。经理论分析和实验,验证了采用 GDK-means 算法,在保证数据可用性的前提下,可实现数据发布中较好的隐私保护性。关键词:贫困生资助;分布式聚类;隐私保护;K-means 算法中图分类号:TP311.13;G647 文献标识码:A 文章编号:
3、2096-4706(2023)11-0030-04Research on a College Information Privacy-Protection Method for Poor Students Based on GDK-meansLIU Xiaona1,WANG Kai1,WANG Chengde1,XU Yanqiang2(1.Lanzhou University of Arts and Science,Lanzhou 730000,China;2.Lanzhou Institute of Technology,Lanzhou 730050,China)Abstract:In t
4、he process of providing financial aid to poor students,colleges and universities obtain a lot of key private data about the students in order to ensure openness and fairness,such as the reason for poverty,the location of the students origin,family income,family members,school spending and other sens
5、itive private data.At the same time,the results of financial aid must be made public to ensure the fairness of the management process.A privacy-protection method based on GDK-means is proposed to address the contradiction between disclosure and privacy-protection in the release of data on poor stude
6、nts in colleges and universities.Under this algorithm,the published sensitive data can be de-privatised by intra-cluster generalisation of the generated clusters on the basis of K-means clustering to achieve the purpose of user privacy-protection,while quantifying the degree of information loss caus
7、ed by the processing.After theoretical analysis and experiments,it is verified that the use of GDK-means algorithm can achieve better privacy-protection in data publishing under the premise of ensuring data availability.Keywords:financial aid for poor students;distributed clustering;privacy-protecti
8、on;K-means algorithm0 引 言高校在对生活困难学生认定时,主要标准就是家庭条件困难和在校期间生活简朴。其中评定时需要收集学生在校日常消费数据,以及影响家庭经济状况的有关因素开展认定工作,如家庭收入、家庭负担、特殊群体、生源地、突发状况、学生食堂和教育超市消费等数据,以供对学生进行资助和相关等级认定,并在完成评定后需要对学生的部分信息进行公示,才能保证整个评定过程公平、可靠。但是,这些原始数据中通常包含很多的个人隐私信息,如果不经过任何处理就直接发布,势必会造成严重的隐私泄露,从而导致困难身份披露和属性披露,使得善意的助学行为变成对困难学生的心理伤害,甚至会降低部分困难学生的
9、参与度,从而降低了资DOI:10.19850/ki.2096-4706.2023.11.007助的善意效力。而且,保证数据的私密性和保证数据的效用又是相互矛盾的。采用传统的数据匿名、扰乱、添加噪声等,均不能很好地解决这方面的问题。因此,如何在数据发布中保证个人敏感信息不被泄露,避免各种隐私攻击,同时保证发布数据具有较高效用是当前面临的一个重大挑战1。同时,由于隐私数据的特殊性,数据库表中各个字段的不同数据,需要具有完全不同的隐私敏感度,在发布过程中对这部分数据的隐私保护需求也各不相同,即数据的敏感度与数据组自身的独特性也有关系。现有数据收集和发布中的隐私保护方案,大多数未充分考虑需要对隐私数据
10、进行垂直分级,即个性化隐私需求的情况。另一方面,极端相反的过度保护现象,也可造成可用数据的丢失,从而使得资助的评定过程失去了部分原始数据的支撑,降低了公平性。基于隐私数据发布过程的保护,就是要从学生数据的个体角度出发,考虑数据敏感度因素,真正实现个性化隐私保护,同时实现原始数据的使用价值。基于以上原则,就要求在学生资助的整个31312023.062023.06第 11期评定、公布过程中,采用的数据发布算法,不仅要保证对学生消费数据的充分利用,更要在保证挖掘结果和用户数发布后,在不泄露用户隐私的前提下,使脱敏后的数据具有可用性。1 隐私数据发布保护关于信息发布的隐私保护方面的研究还处在起步阶段,
11、目前的解决技术主要有以下 3 种。1.1 匿名保护数据发布为保护个人资料,通常将 ID、姓名等能标识该用户的显性属性字段进行了删除和加密,但恶意数据获取者往往可根据已发布数据中的相关知识背景,如专业、年级、籍贯等其他数据库中取得的数据进行链接,从而可推导出隐私数据,尤其是一些特殊的数据,如青海、软件、19 级,这三个字段数据在数据库表中均非关键字属性,但由于某些取值的独特性,如籍贯青海生源的学生如果人数较少,那么在非显性属性字段的情况下,仍能造成隐私的泄露。1.2 对原始数据进行扰乱分布式系统中数据发布时,其标示符字段会被删除,但通过记录关联技术,将准标示字段与知识背景匹配后,则可推理出用户身
12、份,从而获得用户隐私数据。在目前已有算法中,已验证可保持结果的统计特性,但是该方法通常会破坏掉数据的完整性和真实性,导致需进一步对其中的数据丢失度与可用性进行分析,在实际应用中很难达到数据可用与隐私保护两者之间的平衡。1.3 安全多方计算安全多方计算采用密码学技术来解决用户的隐私问题,在无可信第三方的情况下,要求多个参与方共同但独立的计算一个目标函数。该过程需构造多方安全协议,算法难度大。并且需要严格要求每一方仅获取自己的计算结果,其他方的输入数据在整个过程中不能交互。该方法会消耗过多的计算资源,实现难度大,实际应用较少。2 基于匿名发布的聚类算法为解决上述 3 种方法的不足,近期提出了一些基
13、于匿名发布的聚类算法,如K-means(K-均值算法)、DK-means(分布式均值聚类)、PPDK-means(安全多方计算均值聚类)等,这些算法主要基于集中式数据库进行设计,主要通过一个横向划分表来实现分布式数据的隐私保护2。其中 K-means 算法是一种较为经典的基于距离的聚类算法,k 代表要分的组数,可由用户预先给定。组之间数据的通过组内元素的相似性划分,采用距离作为相似性的评价指标,即认为某一个数据距离核中心对象的距离越大,其数据独特性就越强,由该值暴露整体数据的可能性就越大。该距离可根据实际要求,选用欧几里得距离、明科夫斯基距离和余弦距离等。K-means 算法核心思想是各聚类本
14、身尽可能地紧凑,而各聚类之间尽可能地分开,通过迭代寻找 k 个类簇的一种划分方案,使得用这 k 个类簇的均值来代表相应各类样本时所得的总体误差最小,其求解过程非常直观简单3。具体实现步骤如下:1)创建一初始模糊伪划分 k 个点。2)利用模糊伪划分,计算每个簇的质心。3)对全局数据集中的每一个数据点,计算质心与数据点的距离,将数据点分配到距离最近的簇分组。4)对每一个簇,计算簇中所有点的均值,并将均值作为新的质心。5)重复以上 2)4)步骤,直到簇的质心不再改变。K-means 按照如上步骤将相同一类的数据聚集后,在组内聚集的基础上,按照所属类型发布,即可有效减少数据的隐私度。本文在上述算法的基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 GDK means 贫困生 信息 隐私 保护 方法 研究 刘晓娜
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。