读数据科学伦理：概念、技术和警世故事05后门、偏差与偏见

龙骋唧 · 2025-5-31 23:22:43

1. 后门

1.1. 政府经常主张在加密标准中设置“后门”，这样他们就能够在适当的时候（比如在获得法院命令之后）检索个人数据
1.2. “五眼情报联盟”(Five Eyes intelligence alliance)

1.2.1. 如果电信和科技公司不为执法机构和政府提供“合法获取”公民加密信息的“后门”，它们将遭到强烈抵制
1.2.2. 美国、英国、澳大利亚、加拿大和新西兰

1.3. 网景公司(Netscape)开发了两种版本的网络浏览器：一种是加密密钥为128位的美国版本，而另一种则是加密密钥为40位的国际版本
1.4. 隐私不是绝对的

1.4.1. 很少有人会质疑警察在合法获得搜查令后进入一所住宅的权利，或者类似的搜查车辆或获取已知恐怖分子电话记录的权利
1.4.2. 不仅仅是政客和执法机构认为隐私不是绝对的
1.4.3. 沃伦·巴菲特(Warren Buffett)等商界人士也同意这一观点

1.5. 隐私和安全

1.5.1. 隐私和安全之间的平衡、安全与安全之间的平衡以及政府设“后门”所产生的有限的影响
1.5.2. 为了安全而放弃隐私的原因
- 1.5.2.1. 本杰明·富兰克林(Benjamin Franklin)说过：“那些愿意放弃基本自由以换取暂时安全的人既不配获得自由，也不配获得安全。”
- 1.5.2.2. 这个论点不仅适用于加密技术，也适用于你的“离线”数据

1.6. 安全和安全

1.6.1. 即使你完全信任政府用于获取加密数据的程序，任何不怀好意的人都可能试图利用这个弱点，并通过这个“后门”找到进入（数据保护系统）的方法
1.6.2. 考虑到加密和安全领域的持续竞争，知道其中有弱点的话，这将对黑客具有很大吸引力
1.6.3. 假设设置“后门”是可以完全保密的行为是非常幼稚的，这样很可能会造成信息被大量滥用
1.6.4. 将钥匙放在门垫下不安全，政府在我们的通信系统中设“后门”也同样不安全
1.6.5. 尽管政府的“后门”能让执法部门更好地追踪和抓捕犯罪嫌疑人和恐怖分子，这似乎可以提升公众的安全感，但同时，它也因暴露其他公民的数据，而使其遭到勒索或仅仅致其丧失隐私等而降低了他们的安全感
- 1.6.5.1. 不仅个人隐私受到威胁，知识产权或公司战略等商业数据和秘密也可能被窃取
1.6.6. WhatsApp中使用端到端加密
- 1.6.6.1. 它将使数亿依赖端到端加密的守法民众失去一个重要的安全保护罩
- 1.6.6.2. 改变我们的加密方式并不会阻止不法分子使用端到端加密，因为还有其他更不可靠的服务可用
1.6.7. 网络安全专家一再证明，不可能创建任何不被不法分子发现和利用的“后门”
- 1.6.7.1. 这就是为什么削弱加密技术的任何一部分都会削弱整个安全系统

1.7. 一旦这些政府设置的“后门”被发现（当苹果公司开发出可删除安全功能的软件时，就会出现这种情况），犯罪分子和恐怖分子很可能会转向其他通信方式

1.7.1. “后门”再次削弱了普通守法公民的安全，而无法解决不法分子可访问公民数据的问题

2. 现状

2.1. 对于非数值的个人数据（比如，你在家里收到的信件、可能保留的银行打印记录或打印发票）似乎有一个共识，即执法机构有权访问该等数据，甚至可以在适当的法院命令下没收它们

2.1.1. 对于数值的个人记录，其区别似乎取决于第三方处理机制是否需要访问其内容

2.2. 在后斯诺登时代，一家手机公司要想在全球市场上生存下去，就必须让消费者相信他们的数据是安全的
2.3. 加密技术不能保障数据保护的安全性

2.3.1. 除了持续不断地保护加密技术不受攻击，还存在元数据和规避加密的方法等问题
2.3.2. 元数据（比如，显示消息从何处发送的IP地址、消息的发送者和接收者以及呼叫的时长等）不会透露消息的内容，但会提供个人信息

2.4. 加密也无助于防止备份或下载你可能保存的未加密聊天记录
3. 偏差/偏见

3.1. 偏见是另一个重要的伦理概念，抽样偏差可能导致许多错误的结论，或使敏感群体受到不公平待遇
3.2. 数据科学家所研究的数据，很少能完美地代表模型所应用的总体
3.3. 样本可能有很多来自容易访问的组的数据，或者由于环境或总体的变化而不再具有代表性的历史数据

3.3.1. 如果样本对某些敏感群体（比如，具有特定种族背景、性别、宗教或年龄的人）有偏见的话，那么得出的模型很可能也会包含这种偏见，因此可能造成对该等敏感群体的歧视
3.3.2. 它是否会影响模型在样本和总体上的性能

3.4. 数据样本的偏差：样本不具有总体代表性

3.4.1. 抽样是数据科学研究自身固有的一个局限性
3.4.2. 由于各种原因，要想收集总体完整的数据往往是不可能的
- 3.4.2.1. 数据只能从已同意提供数据的人那里获得
- 3.4.2.2. 无法对所有人进行问卷和调查
- 3.4.2.3. 获取数据可能会耗费大量资金
3.4.3. 当样本不具有代表性时，某一人群的非随机样本而形成的误差就会由此产生
- 3.4.3.1. 仅社交媒体用户无法作为总体的代表性样本
3.4.4. 样本偏差影响的例子
- 3.4.4.1. 装甲并不需要安装在弹孔所在处，而需要安装在没有弹孔的地方也就是安装在引擎上
- 3.4.4.2. 应该在引擎上加装额外的装甲，其理由是在那里几乎发现不了弹孔
3.4.5. 意识到样本偏差的存在是重中之重
3.4.6. 样本偏差会导致错误的结论

3.5. 数据或模型对敏感群体的偏见：这与公平性问题一一对应
3.6. 偏差、方差权衡

3.6.1. 模型的预测性能是两种误差之间的权衡，一种是由对模型的学习算法的假设引起的偏差误差
3.6.2. 另一种是由非无限样本量引起的方差误差，其中模型对训练集中的微小变化很敏感

3.7. 线性模型中的偏差：截距通常也称为偏差项，这是因为如果输入端没有数据（即全部为零）的话，其结果就是偏差项
3.8. 在数据科学伦理中，“偏见”的语境通常是样本偏差或对敏感群体的偏见
3.9. 过度采样也可能是一个问题

3.9.1. 做法可能会变成一种自然而然就会实现的预言
3.9.2. 数据科学就会以错误的、不道德的方式来证实毫无根据的偏见

3.10. 即使表达不足或过度表达完全是无意的，由此产生的不同影响也值得我们关注这个问题
3.11. 由于对某些种族或性别群体存在偏见，在员工中历来存在该群体代表性不足的情况，这可能会扩大到后续的模型中

3.11.1. 一段2017年拍摄的视频显示，只有浅色皮肤的手才能使皂液机有感应、正常工作，而深色皮肤的手却不行
3.11.2. 图像标记技术依旧处于早期阶段，而且，它距离完美还差得很远

4. 人体实验

4.1. 人体实验是收集人体数据的常用方法

4.1.1. 人体实验最主要的原则是获得实现对象的知情同意，保证数据主体的风险最小化的同时将潜在利益最大化，并且确保进行适当的监督

4.2. 人体实验是一项长期的科学实践，即对人体进行实验以研究和了解人类
4.3. 实验一词可被定义为“研究者故意改变内部或外部环境以观察该变化所产生的影响的行为
4.4. 人体实验对人类的影响可能比简单地点击一个广告要大得多

4.4.1. 尽管在医学研究中，人体实验有其默认的伦理标准和共识，但在非医学数据收集阶段（通常是在线的），这种做法似乎并不是很规范

4.5. 《纽伦堡法典》的主要目的是防止此类可怕的实验再次发生，但事实上违背伦理的人体实验并未因此而终止
4.6. 知情同意

4.6.1. 这也是《通用数据保护条例》的一部分
4.6.2. 无论这有多么困难，提供知情同意的受试者都应是自由同意的，同时实验者也应在实验前告知受试者有关研究性质、潜在后果、风险以及备选方案等的客观信息，然后再获得其知情同意

4.7. 将数据主体的风险降到最低，并将潜在获益最大化
4.8. 不仅在研究之初需要对其进行监督，在整个实验过程中也都需要进行伦理反思，特别是涉及历经多年的研究时更是如此
4.9. 指派一个人（甚至是一整个委员会）负责在进行数据科学项目期间跟进和尽量避免可能带来的伦理影响，或者在每一份研究报告中增加关于伦理反思的相关内容
4.10. A/B测试是一种常用的方法，你可以使用不同属性的两个组进行实验

4.10.1. 未经用户知晓就让其参与进这样的实验的话，他们的情绪健康状态（比如幸福等）可能会受到影响
4.10.2. 如果为了改善服务而对用户撒谎，那么，A/B测试与欺诈之间的界限在哪里？

4.11. C/D实验，即在没有预先警告的情况下，更改编程代码来操纵结果，从而故意欺骗用户
4.12. 当患者将遭受不适或疼痛时，知情同意就很有必要

4.12.1. 在数字化大环境中，如果存在潜在的负面影响，应征求数据主体（以及潜在的模型主体）的知情同意

4.13. 数字实验也需要征求知情同意、最大限度降低风险的同时将潜在利益最大化以及确保伦理监督，因为其造成的影响可能与医学实验一样大

4.13.1. 如果你的实验对人们的情绪健康有影响，那么一定要仔细考虑到这样做可能会产生的所有伦理影响
4.13.2. 不论有多难，在进行此类实验前，至少要确保获得用户明确的知情同意

4.14. 如果你打算通过可能会影响人们精神状态的人体实验来收集数据，最好要考虑到其产生的所有的伦理影响，其中包括获得知情同意、最大限度地减少对数据主体的潜在伤害以及确保伦理监督

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册