读数据科学伦理：概念、技术和警世故事06伦理数据预处理

笙芝 · 2025-5-31 23:15:39

1. 伦理数据预处理

1.1. 仅仅通过去身份化措施是远远不够的
1.2. 仅仅去除信息的敏感属性并不足以消除对敏感群体（如外国学生）的偏见
1.3. 找到方法消除数据集中存在的偏见并利用生成的预测模型来避免歧视现象的出现
1.4. 对数据集采用k-匿名、l-多样性或t-贴近度法等手段以加强隐私保护
1.5. 从隐私和对敏感群体的歧视的角度出发，重点探讨了如何衡量和确保数据集的公平性

1.5.1. 人们常常认为仅靠消除个人标识符或敏感属性就可以实现公平
1.5.2. 你可能看不见一些问题，但是问题仍然摆在那里

1.6. 预处理数据集的隐私可以根据k-匿名、l-多样性和t-贴近度来定义，但是每种解决方法都会面临隐私攻击

1.6.1. 攻击的目的是再次识别一个人或揭示一个人的敏感属性值，不一定需要将特定的数据点与某人相连
1.6.2. 确保此类隐私的方法是隐匿数值和对案例或数值进行分组

1.7. 务必牢记，符合这些隐私定义并不意味着能够彻底了解隐私及其效用

1.7.1. 定义的精确度越高，匿名性、多样性越强或接近性越低等都有助于加强隐私保护，但均以牺牲效用为代价

1.8. 如果该数据能够被人们用来进行再识别个体身份，那么它们就会被《通用数据保护条例》称为伪匿名数据
1.9. 即使有背景知识、未来技术或无限的计算资源，添加噪声这一方法也可以为隐私提供更体面和精准的保护
1.10. 散列法只是一种伪匿名的方法
2. 定义和衡量隐私的标准

2.1. 私人或个人数据一般被认为是与个人相关的数据
2.2. 在收集数据时，需要考虑数据预处理的方法以便合理地储存数据（可能包括个人数据、经假名化处理过的数据，或匿名化处理过的数据）
2.3. 如果要公开一个数据集，必须将泄露个人数据的风险降到最低
2.4. 即使是内部信息，也会有数据泄露和内部员工窥探（甚至法院命令）的风险
2.5. 伦理数据科学家希望在确保个人隐私数据得到保护的同时能够进行有效的分析和建模

2.5.1. 通过隐私保护数据发布(PPDP)的方法来实现，例如隐匿实例或变量、分组变量或数值以及添加噪声等

2.6. 为了确保建立于数据之上的模型不会对敏感群体产生偏见，可以进行预处理分析以检测和消除数据中可能存在的偏见
3. 隐匿法、分组法和干扰法

3.1. 要建立一个保护隐私的个人数据集，最合理而且最常见的方法是消除个人身份标识符

3.1.1. 仅仅通过隐匿标识符来保护个人隐私是远远不够的

3.2. 除了显式标识符之外，还有其他独特的特征—准标识符，它们通常以独特的方式组合在一起，因此可以用于再识别（或去匿名化）个人身份
3.3. 更多方法加强隐私保护

3.3.1. 统计披露限制程序
3.3.2. 限制个人数据泄露的方法
3.3.3. 目的是避免出现泄漏个人资料的风险

3.4. 分组法是一种概括个人信息的方法，可以把具体的实例放在群集中，产生变量

3.4.1. 连续变量的值可以分组到离散值，而对名义变量(nominal variables)的值则可以分组到更高层次的概念中

3.5. 干扰法为数据增加噪声，使得从数据集导出的统计数据和模式与从原始数据导出的数据不会存在太大差异

3.5.1. 非常接近于差分隐私的定义
3.5.2. 通过增加加性干扰噪声、乘性干扰噪声或数据交换（实例之间交换敏感属性）等方式来增加噪声干扰
3.5.3. 干扰法简单易操作，效果显著
3.5.4. 此方法不可保持数据内容的准确性，而分组法和隐匿法可以做到这一点

4. k-匿名

4.1. 数据集的一个属性，对于数据集中的每个准标识符组合，至少有k-1个具有相同值组合的其他实例
4.2. 就准标识符而言，每个个体（数据实例）的信息无法与数据集中的至少K-1个其他个体区别开来
4.3. 在k-匿名数据集中，通过准标识符将一个人与特定数据实例相连的概率最多为1/k
4.4. 如果决策错误会导致敏感数据泄露，或不必要的信息损失
4.5. 一个数据集可以自动转化为K-匿名数据集，我们可以使用多种算法通过隐匿法和分组法使其实现自动转化，比如斯威尼的Datafly系统
4.6. 匿名化方法的目标是：给定一个数据集，在保持信息损失最小的前提下以最快的速度获得该数据集的k-匿名版本

4.6.1. 据我们所知最佳的k-匿名版本属于NP难题，所以我们需要采用贪心算法(greedy algorithms)来实现大型数据集的转化

4.7. 这个定义使得预处理步骤中的隐私问题更加规范化，因为它保证了K-匿名数据集中的每个实例无法与至少k-1个其他实例区分，即使这些实例可与外部信息相连
4.8. 存在两种攻击行为，其目的在于对敏感属性数值进行识别
5. 同质性攻击和链接攻击

5.1. 保护身份信息和保护敏感属性数值不同
5.2. 如果两个案例的敏感变量值相同，那么敏感值就会被泄露
5.3. 链接攻击需要更多的背景知识
6. l-多样性，t-贴近度

6.1. l-多样性

6.1.1. 具有代表性的数值含有不同的定义，最简单的定义是其应具有唯一性
6.1.2. 数据集的一种属性，对于数据集中的每个等价类，敏感属性中至少有l个具有代表性的数值

6.2. t-贴近度

6.2.1. 它要求每个等价类中的敏感属性的分布接近完整数据集中敏感属性的分布，贴近度由一些分布距离参数和一个阈值t定义
6.2.2. 这一做法会使数据更具普遍性，从而再次阐明了数据的效用与数据主体隐私之间的平衡关系

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册