CSDN热搜
3.5.1.5.1. 发现性
3.5.1.5.1.1. 在数据驱动型公司中,数据必须可用且可发现
3.5.1.5.1.2. 终端用户应该能够快速可靠地访问他们完成工作所需的数据
3.5.1.5.1.3. 他们应该知道数据的来源、数据与其他数据的关系,以及数据的含义
3.5.2.2.1. 固件工程师为IoT设备开发记录的数据格式
3.5.2.2.2. Web应用程序开发人员设计对API调用
3.5.2.2.3. MySQL表模式的JSON响应
3.5.3.5.1. DODD一直观测其血缘的数据
3.5.3.5.2. DODD的目的是让数据链中的每个人都能看到数据和数据应用程序,以便数据价值链中的每个人都能够从获取到转换再到分析的每个步骤中识别数据或数据应用程序的变化,以帮助解决或防止数据问题
3.5.3.5.3. DODD专注于使数据可观测性成为数据工程生命周期中的首要考虑因素
3.5.6.2.1. 味着我们有即付即得的存储成本,而不是本地数据湖的大量前期资本支出
3.5.6.3.1. 数据工程师必须知道他们保留了哪些消费者数据,并且必须具有销毁数据的程序以响应请求和合规性要求
3.5.6.4.1. SQL语义允许删除符合where子句的行
3.5.6.4.2. 数据销毁在数据湖中更具挑战性,其中一次写入、多次读取是默认的存储模式
3.5.6.4.3. Hive ACID和Delta Lake等工具可以允许大规模删除事务的轻松管理
4.8.4.1.1. 编排是协调跨各种系统的工作流的中央枢纽
4.8.4.1.2. 编排系统可以提供操作元数据的有限情况,但后者仍然倾向于分散在许多系统中
4.8.4.1.3. 在编排系统中捕获的管道元数据提供了工作流计划、系统和数据依赖性、配置、连接细节等的详细信息
4.8.4.2.1. 数据血缘元数据跟踪数据随着时间的推移的起源和变化,以及它的依赖性
4.8.4.2.2. 随着数据流经数据工程生命周期,它会通过转换和与其他数据的组合而不断发展
4.8.4.2.3. 数据血缘提供了数据在各种系统和工作流中移动时演变的审计线索
4.8.4.3.1. 模式元数据描述了存储在数据库、数据仓库、数据湖或文件系统等系统中的数据结构
4.8.4.3.2. 是不同存储系统的关键区别之一
4.8.4.3.3. 模式元数据必须在元数据存储中进行管理
4.8.4.3.4. 云数据仓库在内部管理模式元数据
4.8.4.4.1. 操作元数据描述了各种系统的运行结果,包括进程统计、作业ID、应用程序运行日志、进程中使用的数据和错误日志
4.8.4.4.2. 数据工程师使用操作元数据来确定流程是成功还是失败,以及流程中涉及的数据
4.8.4.4.3. 对更高质量的操作元数据和更好的元数据管理的需求是下一代编排和元数据管理系统的主要动机
4.8.4.5.1. 参考元数据是用于对其他数据进行分类的数据,也称为查找数据
4.8.4.5.2. 参考数据的标准示例是内部代码、地理代码、测量单位和内部日历标准
4.8.4.5.3. 大部分参考数据完全在内部管理,但地理代码等项目可能来自标准外部参考
4.8.4.5.4. 参考数据本质上是解释其他数据的标准,因此如果它发生变化,则这种变化会随着时间慢慢发生
使用道具 举报
本版积分规则 回帖并转播 回帖后跳转到最后一页
程序园优秀签约作者
0
粉丝关注
5
主题发布