登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
社区
BBS
广播
Follow
园子
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
读数据质量管理:数据可靠性与数据质量问题解决之道20读 ...
读数据质量管理:数据可靠性与数据质量问题解决之道20读后总结与感想兼导读
[ 复制链接 ]
岑韬哎
前天 23:45
1. 基本信息
数据质量管理:数据可靠性与数据质量问题解决之道
[美] 巴尔·摩西,[美] 利奥·加维什,[美] 莫莉· 著
机械工业出版社,2024年5月出版
1.1. 读薄率
书籍总字数18.8万字,笔记总字数61295字。
读薄率61295÷188000≈32.6%
1.2. 读厚方向
Data Mesh权威指南
数据的边界:隐私与个人数据保护
数据保护:工作负载的可恢复性
Julia数据科学应用
MLOps权威指南
数据自助服务实践指南:数据开放与洞察提效
商战数据挖掘:你需要了解的数据科学与分析思维
Spark快速大数据分析(第2版)
1.3. 笔记--章节对应关系
笔记章节字数发布日期
2024年读数据质量管理:数据可靠性与数据质量问题解决之道01数据质量第1章 为什么数据质量值得关注311711月12日读数据质量管理:数据可靠性与数据质量问题解决之道02数据湖仓第2章 对可靠数据系统的构建模块进行组装334511月13日读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录第2章 对可靠数据系统的构建模块进行组装273411月14日读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗第3章 收集、清洗、转换和测试数据328611月15日读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化第3章 收集、清洗、转换和测试数据346211月16日读数据质量管理:数据可靠性与数据质量问题解决之道06数据测试第3章 收集、清洗、转换和测试数据380211月17日读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测第4章 数据管道的监控和异常检测220911月18日读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测第4章 数据管道的监控和异常检测373811月19日读数据质量管理:数据可靠性与数据质量问题解决之道09数据可靠性第5章 为数据可靠性进行架构设计327211月20日读数据质量管理:数据可靠性与数据质量问题解决之道10数据平台第5章 为数据可靠性进行架构设计363211月21日读数据质量管理:数据可靠性与数据质量问题解决之道11根因分析第6章 解决大规模数据质量问题331911月22日读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解第6章 解决大规模数据质量问题266911月23日读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭第7章 构建端到端的数据沿袭347611月24日读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量第8章 推广和普及数据质量319311月25日读数据质量管理:数据可靠性与数据质量问题解决之道15数据信任第8章 推广和普及数据质量289011月26日读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证第8章 推广和普及数据质量429611月27日读数据质量管理:数据可靠性与数据质量问题解决之道17数据网格第9章 现实世界中的数据质量:对话和案例分析334611月28日读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现第9章 现实世界中的数据质量:对话和案例分析282111月29日读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来第10章 开创可靠数据系统的未来268811月30日$总计61295$
2.
亮点
2.1 数据标准化很重要
标准化通常是你的数据在管道中经过的诸多此类转换中的第一个
非常重要
2.2 数据测试
数据测试的两个最佳工具分别是dbt测试和Great Expectation
2.3 数据沿袭
通俗点说,就是来龙去脉
2.4 数据信任
重中之重,不可信,有何用?
其实,也是很有用的。。。。。
比如,米国的那些非农啊、就业啊等等数据操控之用(冠冕堂皇地说法,预期管理)
3.
感想
3.1 总结要及时
总结一定要及时啊,因为时间长了,容易忘
但是,换一个说法,就是没有忘的,就是沉淀下来的精华啊
3.2 数据工程越来越重要
随着时代的发展,AI是数据需求的重头戏,而数据工程是保障数据质量的关键环境,“垃圾进,垃圾出“,数据工程势必占据越来越重要的地位
3.3 数据质量保障是一个长期、持续的过程
只要有数据产生,就要保障数据质量,不会一劳永逸,只会持续不断跟进
3.4 数据信任和操控
前文提到了数据操控,其实还是基于数据信任的
为什么要数据操控?是因为数据不符合预期。
为什么会认为数据不符合预期?是因为相信数据得到的结果,还是要信任啊。
也许你会说,样本取样的问题?为什么样本取样有问题?为什么不全面取样?是不能还是不敢,亦或是不为
修正前期的数据又为啥?
3.5 好书,推荐阅读
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
如何优雅上线、下线?原来 大厂应用 是这样 优雅发布的!
在 .NET 中将 EF Core 升级到 9.0.5 MySQL 连接提示 get_LockReleaseBeh...
开源情报中批判性思维因人工智能而逐渐衰落
【鸿蒙生态学堂03】应用程序框架基础
sshd服务
微软又退出中国。。。
AppFreeze与资源泄漏能力开放及常见问题定位方法介绍
人工智能将如何影响语言的演变?
【UAP】使用 .NET Core App 编写 UAP
【一步步开发AI运动APP】一、写在最前
HarmonyOS 5.0 分布式数据协同与跨设备同步
[学习笔记]使用git rebase做分支差异化同步
不是哥们,26 岁程序员,去种头发了?
记录---前端图像五兄弟:网络 URL、Base64、Blob、ArrayBuffer、本地路径,全整明白!
在Ubuntu中部署.NET 8 Minimal WebAPI项目
华为云昇腾专区重磅上线!带你入门昇腾AI技术与DeepSeek实践
MOSN(Modular Open Smart Network)是一款主要使用 Go 语言开发的云原生网络代理平台
Datawhale速通百炼RAG应用-Task1
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
科技
代码
签约作者
程序园优秀签约作者
发帖
岑韬哎
前天 23:45
关注
0
粉丝关注
19
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9986
背竽
9994
猷咎
9992
4
凶契帽
9992
5
里豳朝
9992
6
终秀敏
9990
7
裴涛
9990
8
处匈跑
9990
9
氛疵
9990
10
黎瑞芝
9990
查看更多