登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP网盘
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
读数据科学伦理:概念、技术和警世故事05后门、偏差与偏 ...
读数据科学伦理:概念、技术和警世故事05后门、偏差与偏见
[ 复制链接 ]
龙骋唧
2025-5-31 23:22:43
1. 后门
1.1. 政府经常主张在加密标准中设置“后门”,这样他们就能够在适当的时候(比如在获得法院命令之后)检索个人数据
1.2. “五眼情报联盟”(Five Eyes intelligence alliance)
1.2.1. 如果电信和科技公司不为执法机构和政府提供“合法获取”公民加密信息的“后门”,它们将遭到强烈抵制
1.2.2. 美国、英国、澳大利亚、加拿大和新西兰
1.3. 网景公司(Netscape)开发了两种版本的网络浏览器:一种是加密密钥为128位的美国版本,而另一种则是加密密钥为40位的国际版本
1.4. 隐私不是绝对的
1.4.1. 很少有人会质疑警察在合法获得搜查令后进入一所住宅的权利,或者类似的搜查车辆或获取已知恐怖分子电话记录的权利
1.4.2. 不仅仅是政客和执法机构认为隐私不是绝对的
1.4.3. 沃伦·巴菲特(Warren Buffett)等商界人士也同意这一观点
1.5. 隐私和安全
1.5.1. 隐私和安全之间的平衡、安全与安全之间的平衡以及政府设“后门”所产生的有限的影响
1.5.2. 为了安全而放弃隐私的原因
1.5.2.1. 本杰明·富兰克林(Benjamin Franklin)说过:“那些愿意放弃基本自由以换取暂时安全的人既不配获得自由,也不配获得安全。”
1.5.2.2. 这个论点不仅适用于加密技术,也适用于你的“离线”数据
1.6. 安全和安全
1.6.1. 即使你完全信任政府用于获取加密数据的程序,任何不怀好意的人都可能试图利用这个弱点,并通过这个“后门”找到进入(数据保护系统)的方法
1.6.2. 考虑到加密和安全领域的持续竞争,知道其中有弱点的话,这将对黑客具有很大吸引力
1.6.3. 假设设置“后门”是可以完全保密的行为是非常幼稚的,这样很可能会造成信息被大量滥用
1.6.4. 将钥匙放在门垫下不安全,政府在我们的通信系统中设“后门”也同样不安全
1.6.5. 尽管政府的“后门”能让执法部门更好地追踪和抓捕犯罪嫌疑人和恐怖分子,这似乎可以提升公众的安全感,但同时,它也因暴露其他公民的数据,而使其遭到勒索或仅仅致其丧失隐私等而降低了他们的安全感
1.6.5.1. 不仅个人隐私受到威胁,知识产权或公司战略等商业数据和秘密也可能被窃取
1.6.6. WhatsApp中使用端到端加密
1.6.6.1. 它将使数亿依赖端到端加密的守法民众失去一个重要的安全保护罩
1.6.6.2. 改变我们的加密方式并不会阻止不法分子使用端到端加密,因为还有其他更不可靠的服务可用
1.6.7. 网络安全专家一再证明,不可能创建任何不被不法分子发现和利用的“后门”
1.6.7.1. 这就是为什么削弱加密技术的任何一部分都会削弱整个安全系统
1.7. 一旦这些政府设置的“后门”被发现(当苹果公司开发出可删除安全功能的软件时,就会出现这种情况),犯罪分子和恐怖分子很可能会转向其他通信方式
1.7.1. “后门”再次削弱了普通守法公民的安全,而无法解决不法分子可访问公民数据的问题
2. 现状
2.1. 对于非数值的个人数据(比如,你在家里收到的信件、可能保留的银行打印记录或打印发票)似乎有一个共识,即执法机构有权访问该等数据,甚至可以在适当的法院命令下没收它们
2.1.1. 对于数值的个人记录,其区别似乎取决于第三方处理机制是否需要访问其内容
2.2. 在后斯诺登时代,一家手机公司要想在全球市场上生存下去,就必须让消费者相信他们的数据是安全的
2.3. 加密技术不能保障数据保护的安全性
2.3.1. 除了持续不断地保护加密技术不受攻击,还存在元数据和规避加密的方法等问题
2.3.2. 元数据(比如,显示消息从何处发送的IP地址、消息的发送者和接收者以及呼叫的时长等)不会透露消息的内容,但会提供个人信息
2.4. 加密也无助于防止备份或下载你可能保存的未加密聊天记录
3. 偏差/偏见
3.1. 偏见是另一个重要的伦理概念,抽样偏差可能导致许多错误的结论,或使敏感群体受到不公平待遇
3.2. 数据科学家所研究的数据,很少能完美地代表模型所应用的总体
3.3. 样本可能有很多来自容易访问的组的数据,或者由于环境或总体的变化而不再具有代表性的历史数据
3.3.1. 如果样本对某些敏感群体(比如,具有特定种族背景、性别、宗教或年龄的人)有偏见的话,那么得出的模型很可能也会包含这种偏见,因此可能造成对该等敏感群体的歧视
3.3.2. 它是否会影响模型在样本和总体上的性能
3.4. 数据样本的偏差:样本不具有总体代表性
3.4.1. 抽样是数据科学研究自身固有的一个局限性
3.4.2. 由于各种原因,要想收集总体完整的数据往往是不可能的
3.4.2.1. 数据只能从已同意提供数据的人那里获得
3.4.2.2. 无法对所有人进行问卷和调查
3.4.2.3. 获取数据可能会耗费大量资金
3.4.3. 当样本不具有代表性时,某一人群的非随机样本而形成的误差就会由此产生
3.4.3.1. 仅社交媒体用户无法作为总体的代表性样本
3.4.4. 样本偏差影响的例子
3.4.4.1. 装甲并不需要安装在弹孔所在处,而需要安装在没有弹孔的地方也就是安装在引擎上
3.4.4.2. 应该在引擎上加装额外的装甲,其理由是在那里几乎发现不了弹孔
3.4.5. 意识到样本偏差的存在是重中之重
3.4.6. 样本偏差会导致错误的结论
3.5. 数据或模型对敏感群体的偏见:这与公平性问题一一对应
3.6. 偏差、方差权衡
3.6.1. 模型的预测性能是两种误差之间的权衡,一种是由对模型的学习算法的假设引起的偏差误差
3.6.2. 另一种是由非无限样本量引起的方差误差,其中模型对训练集中的微小变化很敏感
3.7. 线性模型中的偏差:截距通常也称为偏差项,这是因为如果输入端没有数据(即全部为零)的话,其结果就是偏差项
3.8. 在数据科学伦理中,“偏见”的语境通常是样本偏差或对敏感群体的偏见
3.9. 过度采样也可能是一个问题
3.9.1. 做法可能会变成一种自然而然就会实现的预言
3.9.2. 数据科学就会以错误的、不道德的方式来证实毫无根据的偏见
3.10. 即使表达不足或过度表达完全是无意的,由此产生的不同影响也值得我们关注这个问题
3.11. 由于对某些种族或性别群体存在偏见,在员工中历来存在该群体代表性不足的情况,这可能会扩大到后续的模型中
3.11.1. 一段2017年拍摄的视频显示,只有浅色皮肤的手才能使皂液机有感应、正常工作,而深色皮肤的手却不行
3.11.2. 图像标记技术依旧处于早期阶段,而且,它距离完美还差得很远
4. 人体实验
4.1. 人体实验是收集人体数据的常用方法
4.1.1. 人体实验最主要的原则是获得实现对象的知情同意,保证数据主体的风险最小化的同时将潜在利益最大化,并且确保进行适当的监督
4.2. 人体实验是一项长期的科学实践,即对人体进行实验以研究和了解人类
4.3. 实验一词可被定义为“研究者故意改变内部或外部环境以观察该变化所产生的影响的行为
4.4. 人体实验对人类的影响可能比简单地点击一个广告要大得多
4.4.1. 尽管在医学研究中,人体实验有其默认的伦理标准和共识,但在非医学数据收集阶段(通常是在线的),这种做法似乎并不是很规范
4.5. 《纽伦堡法典》的主要目的是防止此类可怕的实验再次发生,但事实上违背伦理的人体实验并未因此而终止
4.6. 知情同意
4.6.1. 这也是《通用数据保护条例》的一部分
4.6.2. 无论这有多么困难,提供知情同意的受试者都应是自由同意的,同时实验者也应在实验前告知受试者有关研究性质、潜在后果、风险以及备选方案等的客观信息,然后再获得其知情同意
4.7. 将数据主体的风险降到最低,并将潜在获益最大化
4.8. 不仅在研究之初需要对其进行监督,在整个实验过程中也都需要进行伦理反思,特别是涉及历经多年的研究时更是如此
4.9. 指派一个人(甚至是一整个委员会)负责在进行数据科学项目期间跟进和尽量避免可能带来的伦理影响,或者在每一份研究报告中增加关于伦理反思的相关内容
4.10. A/B测试是一种常用的方法,你可以使用不同属性的两个组进行实验
4.10.1. 未经用户知晓就让其参与进这样的实验的话,他们的情绪健康状态(比如幸福等)可能会受到影响
4.10.2. 如果为了改善服务而对用户撒谎,那么,A/B测试与欺诈之间的界限在哪里?
4.11. C/D实验,即在没有预先警告的情况下,更改编程代码来操纵结果,从而故意欺骗用户
4.12. 当患者将遭受不适或疼痛时,知情同意就很有必要
4.12.1. 在数字化大环境中,如果存在潜在的负面影响,应征求数据主体(以及潜在的模型主体)的知情同意
4.13. 数字实验也需要征求知情同意、最大限度降低风险的同时将潜在利益最大化以及确保伦理监督,因为其造成的影响可能与医学实验一样大
4.13.1. 如果你的实验对人们的情绪健康有影响,那么一定要仔细考虑到这样做可能会产生的所有伦理影响
4.13.2. 不论有多难,在进行此类实验前,至少要确保获得用户明确的知情同意
4.14. 如果你打算通过可能会影响人们精神状态的人体实验来收集数据,最好要考虑到其产生的所有的伦理影响,其中包括获得知情同意、最大限度地减少对数据主体的潜在伤害以及确保伦理监督
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
龙骋唧
2025-5-31 23:22:43
关注
0
粉丝关注
15
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9986
凶契帽
9990
处匈跑
9990
4
黎瑞芝
9990
5
杭环
9988
6
猷咎
9988
7
鲫疹
9988
8
接快背
9988
9
里豳朝
9988
10
氛疵
9988
查看更多