微数据发布中的隐私保护匿名化算法研究

论文摘要

微数据是指与个体相关的数据,如人口统计数据、客户购物数据、患者医疗数据等,这些数据在趋势分析、市场预测等应用中具有重要的价值。但是如果直接发布或共享微数据会泄漏大量的个体隐私信息。因此,研究微数据发布过程中的隐私保护问题具有重要的现实意义和理论价值。匿名化方法是一种安全有效的隐私数据保护方法,近年来,已经成为数据库和信息安全领域的研究热点。其主要思想是对原始数据进行某种变换,使攻击者无法根据变换后的数据推导出敏感信息所属的具体个体,从而达到保护个体隐私的目的。本文深入研究了微数据发布中的隐私保护匿名化模型及实现技术,并针对现有方法在处理数值型敏感属性和混合型数据上的不足,提出了混合匿名化方法,具体工作有：（1）针对数值型敏感属性提出了（k,e）-MDAV算法。MDAV （Maximum Distance to Average Vector）算法是一种高效的微聚集算法,但该算法没有考虑等价类中敏感属性值的多样性,不能抵制同质性攻击和背景知识攻击。为了解决该问题,本文提出了实现敏感属性多样性的（k,e）-MDAV算法。该算法的基本思想是在进行等价类聚类时,将距离类中心最近的至少k个元组划为一类,同时要求每个类内敏感属性值的最大差异至少为e,从而避免了匿名表中同一等价类内数值型敏感属性值过于接近而造成的隐私泄密。实验结果表明该算法既能够保持MDAV算法的高效性,又能够生成满足（k,e）-匿名模型的更安全的匿名表。（2）针对混合型数据提出了高效k-匿名化的混合算法。由于混合型数据在数据库中普遍存在,而微聚集技术在处理分类型数据时会改变分类型数据的概率分布,泛化/隐匿技术在处理数值型数据时会丢失数值型数据的语义信息,降低了数据的可用性。为此,本文提出了混合型数据高效k-匿名化的混合算法。该算法采用泛化值取代分类型属性值,更好的保留了分类型数据的有用性；用类均值取代数值型属性值,保留了更多的数值语义。为了能对较大数据集进行较为高效的匿名化处理,该算法先采用c-prototype算法将原始数据划分为若干子类,每个子类的大小不小于k,再对划分后的子类进行匿名化处理,这样可以有效的提高对于较大数据集的k-匿名化的效率。实验结果表明该算法能对混合型数据进行高效的κ-匿名化处理。

论文目录

摘要

ABSTRACT

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要工作及论文结构

1.3.1 论文的主要工作

1.3.2 论文的组织结构

1.4 本章小结

2 匿名化的相关技术

2.1 匿名化方法概述

2.2 泛化/隐匿算法相关技术

2.2.1 泛化/隐匿算法的基本概念

2.2.2 泛化/隐匿技术的抽象策略

2.2.3 泛化/隐匿技术的算法分类

2.3 微聚集算法相关技术

2.3.1 微聚集算法的基本概念

2.3.2 微聚集算法的分析

2.4 本章小结

3 面向数值型数据的匿名化算法

3.1 引言

3.2 相关概念

3.2.1 微聚集算法步骤

3.2.2 连续型数据距离度量

3.2.3 连续型数据信息损失量度量

3.2.4 泄密风险的度量

3.2.5 （k,e）-匿名模型

3.3 （k,e）-MDAV算法

3.4 实验和结果分析

3.4.1 测试数据和实验环境

3.4.2 信息损失量比较

3.4.3 泄密风险评估

3.4.4 敏感属性值差异比较

3.5 本章小结

4 混合型数据高效k-匿名化的混合算法

4.1 引言

4.2 混合距离度量及类质心的定义

4.2.1 连续型数据的距离度量方法

4.2.2 分类型数据的距离度量方法

4.2.3 混合型数据的距离度量方法

4.3 匿名数据质量度量

4.3.1 匿名数据的信息损失量度量

4.3.2 匿名数据的泄密风险度量

4.4 混合数据高效k匿名化的混合算法

4.5 实验结果与分析

4.6 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

微数据发布中的隐私保护匿名化算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢