基于动态数据集面向多敏感属性的隐私保护技术研究

基于动态数据集面向多敏感属性的隐私保护技术研究

论文摘要

随着社会的高速发展,隐私保护技术在数据库的领域越来越受到人们的关注,导致在数据库的应用过程中可能出现大量的隐私泄露问题。例如,某个单位人口统计数据、医院病人的患病记录等,这些信息具有非常重要的研究价值。因为,这些数据中往往包含一些个体的隐私信息,它们的发布和共享将导致个人的隐私泄露。现实中的数据集每时每刻都在变化之中,如果直接把原来的静态数据集的方法直接应用到动态数据集的重发布过程中将会导致大量的隐私信息的泄漏。所以,动态数据集的重发布问题面临着更多的挑战。针对动态数据集下多敏感属性的隐私保护问题,提出了一种改进的算法bucket,该算法能处理关系型数据中的动态数据集数据的增加和删除问题,其核心的思想如下:首先,引入了两个概念,即候选更新集合和伪元组集合,并且设计出两个集合的相应模型,候选更新集合是保证多次发布的原始数据的敏感属性具有不可区分性;伪元组集合是不存在的,引入的目的是保证原始数据隐私保护的要求。其次,继承了“m-不变性”和“多维桶结构”的思想,提出了改进的模型bucket算法,对原始数据进行聚类和泛化处理,查找多次发布的匿名表格之间是否出现隐私泄露情况;如果出现隐私泄漏则在候选集合中查找相似的记录插入,没有相似的记录,则在伪元组中查找一个记录进行插入,并且标记伪元组的数目。这样在动态数据集的重发布时,就能满足数据集的更新问题,达到了动态数据集隐私保护的要求。本文采用某医院的医疗数据为例,对动态数据集的多敏感属性进行研究。全面讨论了已有方法动态数据集多敏感属性重发布过程中可能造成的隐私泄漏问题。提出了改进的bucket算法。实验结果表明,该算法能很好的对关系型数据库进行隐私保护,该算法具有较高的隐私保护度,同时该算法的内存占用率也是很低的。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 隐私与隐私保护的特点
  • 1.2.1 信息时代和传统隐私权
  • 1.2.2 隐私保护的分类及研究方向
  • 1.3 国内外研究现状
  • 1.4 研究内容与论文组织
  • 1.4.1 研究的主要内容
  • 1.4.2 论文组织的结构
  • 2 数据隐私保护相关技术
  • 2.1 隐私保护技术性能评估
  • 2.2 隐私泄露风险度
  • 2.3 隐私泄漏主要技术研究和分析
  • 2.4 匿名化技术分析
  • 2.4.1 匿名化发布原则
  • 2.4.2 匿名化算法
  • 2.5 隐私保护数据挖掘技术
  • 3 动态数据集重发布的隐私泄露问题
  • 3.1 问题分析
  • 3.2 动态数据集单敏感属性研究分析
  • 3.2.1 m-Distinct 算法缺陷
  • 3.2.2 HD-composition 算法缺陷
  • 3.3 动态数据集合多敏感属性研究
  • 4 动态数据集面向多敏感属性重发布匿名原则和算法
  • 4.1 动态数据集定义
  • 4.2 匿名重发布原则
  • 4.3 相关定义
  • 4.4 匿名算法
  • 4.4.1 多维桶分组技术
  • 4.4.2 改进 Bucket 优先算法
  • 5 实验环境和相关说明
  • 5.1 实验的环境
  • 5.2 实验数据来源
  • 5.3 实验结果及分析
  • 5.3.1 隐私保护度的测试
  • 5.3.2 伪元组数目的测试
  • 5.3.3 隐匿的记录数目
  • 结论
  • 参考文献
  • 在学研究成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于动态数据集面向多敏感属性的隐私保护技术研究
    下载Doc文档

    猜你喜欢