微数据发布中的隐私保护匿名化算法研究

微数据发布中的隐私保护匿名化算法研究

论文摘要

微数据是指与个体相关的数据,如人口统计数据、客户购物数据、患者医疗数据等,这些数据在趋势分析、市场预测等应用中具有重要的价值。但是如果直接发布或共享微数据会泄漏大量的个体隐私信息。因此,研究微数据发布过程中的隐私保护问题具有重要的现实意义和理论价值。匿名化方法是一种安全有效的隐私数据保护方法,近年来,已经成为数据库和信息安全领域的研究热点。其主要思想是对原始数据进行某种变换,使攻击者无法根据变换后的数据推导出敏感信息所属的具体个体,从而达到保护个体隐私的目的。本文深入研究了微数据发布中的隐私保护匿名化模型及实现技术,并针对现有方法在处理数值型敏感属性和混合型数据上的不足,提出了混合匿名化方法,具体工作有:(1)针对数值型敏感属性提出了(k,e)-MDAV算法。MDAV (Maximum Distance to Average Vector)算法是一种高效的微聚集算法,但该算法没有考虑等价类中敏感属性值的多样性,不能抵制同质性攻击和背景知识攻击。为了解决该问题,本文提出了实现敏感属性多样性的(k,e)-MDAV算法。该算法的基本思想是在进行等价类聚类时,将距离类中心最近的至少k个元组划为一类,同时要求每个类内敏感属性值的最大差异至少为e,从而避免了匿名表中同一等价类内数值型敏感属性值过于接近而造成的隐私泄密。实验结果表明该算法既能够保持MDAV算法的高效性,又能够生成满足(k,e)-匿名模型的更安全的匿名表。(2)针对混合型数据提出了高效k-匿名化的混合算法。由于混合型数据在数据库中普遍存在,而微聚集技术在处理分类型数据时会改变分类型数据的概率分布,泛化/隐匿技术在处理数值型数据时会丢失数值型数据的语义信息,降低了数据的可用性。为此,本文提出了混合型数据高效k-匿名化的混合算法。该算法采用泛化值取代分类型属性值,更好的保留了分类型数据的有用性;用类均值取代数值型属性值,保留了更多的数值语义。为了能对较大数据集进行较为高效的匿名化处理,该算法先采用c-prototype算法将原始数据划分为若干子类,每个子类的大小不小于k,再对划分后的子类进行匿名化处理,这样可以有效的提高对于较大数据集的k-匿名化的效率。实验结果表明该算法能对混合型数据进行高效的κ-匿名化处理。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 论文主要工作及论文结构
  • 1.3.1 论文的主要工作
  • 1.3.2 论文的组织结构
  • 1.4 本章小结
  • 2 匿名化的相关技术
  • 2.1 匿名化方法概述
  • 2.2 泛化/隐匿算法相关技术
  • 2.2.1 泛化/隐匿算法的基本概念
  • 2.2.2 泛化/隐匿技术的抽象策略
  • 2.2.3 泛化/隐匿技术的算法分类
  • 2.3 微聚集算法相关技术
  • 2.3.1 微聚集算法的基本概念
  • 2.3.2 微聚集算法的分析
  • 2.4 本章小结
  • 3 面向数值型数据的匿名化算法
  • 3.1 引言
  • 3.2 相关概念
  • 3.2.1 微聚集算法步骤
  • 3.2.2 连续型数据距离度量
  • 3.2.3 连续型数据信息损失量度量
  • 3.2.4 泄密风险的度量
  • 3.2.5 (k,e)-匿名模型
  • 3.3 (k,e)-MDAV算法
  • 3.4 实验和结果分析
  • 3.4.1 测试数据和实验环境
  • 3.4.2 信息损失量比较
  • 3.4.3 泄密风险评估
  • 3.4.4 敏感属性值差异比较
  • 3.5 本章小结
  • 4 混合型数据高效k-匿名化的混合算法
  • 4.1 引言
  • 4.2 混合距离度量及类质心的定义
  • 4.2.1 连续型数据的距离度量方法
  • 4.2.2 分类型数据的距离度量方法
  • 4.2.3 混合型数据的距离度量方法
  • 4.3 匿名数据质量度量
  • 4.3.1 匿名数据的信息损失量度量
  • 4.3.2 匿名数据的泄密风险度量
  • 4.4 混合数据高效k匿名化的混合算法
  • 4.5 实验结果与分析
  • 4.6 本章小结
  • 5 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 攻读学位期间取得的研究成果
  • 致谢
  • 相关论文文献

    • [1].数据发布中的K-匿名隐私保护机制研究[J]. 福建电脑 2015(04)
    • [2].隐私保护中K-匿名模型的综述[J]. 计算机工程与应用 2008(04)
    • [3].K-匿名熵分类算法研究及分析[J]. 计算机应用研究 2009(12)
    • [4].基于K-匿名的隐私保护算法研究[J]. 赤峰学院学报(自然科学版) 2010(05)
    • [5].面向数据流的敏感规则k-匿名保护算法[J]. 高技术通讯 2013(03)
    • [6].基于两次聚类的k-匿名隐私保护[J]. 吉林大学学报(信息科学版) 2009(02)
    • [7].多维敏感k-匿名隐私保护模型[J]. 计算机工程 2012(03)
    • [8].一种个性化的k-匿名位置隐私保护算法[J]. 南京邮电大学学报(自然科学版) 2012(06)
    • [9].针对k-匿名数据的判定树构造算法[J]. 武汉大学学报(理学版) 2011(06)
    • [10].针对LBS中非可信用户协作构建匿名域的研究[J]. 计算机工程与应用 2014(14)
    • [11].基于个人化匿名的k-匿名方法的分析与改进[J]. 燕山大学学报 2008(01)
    • [12].基于差异化聚类的分级隐私保护数据发布方法[J]. 海南师范大学学报(自然科学版) 2014(01)
    • [13].基于SpaceTwist的k-匿名增量近邻查询位置隐私保护算法[J]. 计算机应用研究 2016(08)
    • [14].医疗数据发布中多敏感属性隐私保护算法[J]. 四川大学学报(自然科学版) 2014(04)
    • [15].MA-Datafly:一种支持多属性泛化的k-匿名方法[J]. 计算机工程与应用 2013(04)
    • [16].聚类的(α,k)-匿名数据发布[J]. 电子学报 2011(08)
    • [17].基于均衡增量近邻查询的位置隐私保护方法[J]. 电信科学 2016(09)
    • [18].K-Q:支持海量查询的隐私泄露检测算法[J]. 计算机应用研究 2013(12)
    • [19].基于分散子匿名区域的位置隐私保护方法[J]. 山东大学学报(理学版) 2013(07)
    • [20].基于多维桶的K-匿名表增量更新算法[J]. 燕山大学学报 2009(05)
    • [21].基于用户真实轨迹的虚假轨迹生成方法[J]. 计算机工程 2018(08)
    • [22].基于连续位置服务请求的位置匿名方法的研究[J]. 信息网络安全 2015(01)
    • [23].社交网络隐私保护技术最新研究进展[J]. 计算机应用研究 2015(05)
    • [24].基于并行聚类的物联网k-匿名算法[J]. 信息技术 2013(12)
    • [25].隐私保护的数据发布研究[J]. 计算机科学 2011(09)
    • [26].基于R树多维K-匿名算法[J]. 计算机工程 2008(01)
    • [27].基于随机森林特征重要性的K-匿名特征优选[J]. 计算机应用与软件 2020(03)
    • [28].基于K-匿名的隐私保护关键技术研究[J]. 信息技术 2016(12)
    • [29].基于K-匿名的个性化隐私保护方法研究[J]. 山东大学学报(理学版) 2014(09)
    • [30].动态数值敏感属性的数据隐私保护[J]. 计算机科学与探索 2011(08)

    标签:;  ;  ;  ;  ;  ;  

    微数据发布中的隐私保护匿名化算法研究
    下载Doc文档

    猜你喜欢