Hudi 文件格式分析

万俟谷雪 发表于 2025-12-3 23:00:03

Hudi 文件格式分析

请关注微信公众号：阿呆-bot
主题说明

Hudi 支持多种文件格式来存储数据，不同的格式有不同的特点和适用场景。理解文件格式的选择和使用，有助于优化存储和查询性能。
Hudi 主要使用两种文件格式：

[*]Parquet：用于基础文件（BaseFile），列式存储，查询性能好
[*]Avro：用于增量日志（LogFile），行式存储，写入性能好
另外还支持 ORC 作为基础文件的替代选择，以及 HFile 用于元数据表。
细化内容

Parquet 格式 - 基础文件

Parquet 是列式存储格式，特别适合分析型查询。Hudi 使用 Parquet 作为基础文件的默认格式。
Parquet 的特点：

[*]列式存储：相同列的数据存储在一起，压缩率高
[*]谓词下推：可以直接在文件层面过滤数据，减少IO
[*]投影下推：只读取需要的列，减少数据传输
[*]压缩效率高：列式存储天然适合压缩
在 Hudi 中的使用：

[*]基础文件（BaseFile）默认使用 Parquet
[*]文件名格式：{fileId}_{commitTime}.parquet
[*]支持 Schema 演化，可以添加新列
Avro 格式 - 增量日志

Avro 是行式存储格式，特别适合增量写入。Hudi 使用 Avro 作为增量日志的格式。
Avro 的特点：

[*]行式存储：一条记录的所有字段存储在一起
[*]Schema 驱动：Schema 和数据分离，支持 Schema 演化
[*]紧凑的二进制格式：比 JSON 等文本格式更省空间
[*]写入性能好：追加写入效率高
在 Hudi 中的使用：

[*]增量日志（LogFile）使用 Avro
[*]日志文件包含多个数据块（Data Block）
[*]每个数据块可以包含多条记录
ORC 格式 - 替代选择

ORC（Optimized Row Columnar）是另一种列式存储格式，可以作为 Parquet 的替代。
ORC 的特点：

[*]列式存储：类似 Parquet
[*]支持 ACID 事务：原生支持更新和删除
[*]压缩率高：使用多种压缩算法
[*]Hive 集成好：Hive 原生支持 ORC
在 Hudi 中的使用：

[*]可以作为基础文件的格式选择
[*]通过配置 hoodie.table.base.file.format=ORC 启用
HFile 格式 - 元数据表

HFile 是 HBase 的文件格式，Hudi 用它来存储元数据表。
HFile 的特点：

[*]键值存储：适合存储键值对数据
[*]排序存储：键按顺序存储，查找效率高
[*]支持 Bloom Filter：快速判断键是否存在
在 Hudi 中的使用：

[*]元数据表使用 HFile 格式
[*]存储文件列表、列统计等元数据信息
关键技术

文件格式的选择策略

Hudi 根据表类型选择文件格式：
Copy-on-Write 表：

[*]基础文件：Parquet（默认）或 ORC
[*]没有日志文件，每次更新都重写基础文件
Merge-on-Read 表：

[*]基础文件：Parquet（默认）或 ORC
[*]日志文件：Avro 格式
[*]查询时需要合并基础文件和日志文件
文件格式的读写器

Hudi 通过 HoodieIOFactory 来获取不同格式的读写器：

[*]ParquetFileFormatUtils：Parquet 格式的读写工具
[*]AvroFileFormatUtils：Avro 格式的读写工具
[*]ORCFileFormatUtils：ORC 格式的读写工具
这些工具类封装了格式特定的读写逻辑。
Schema 演化支持

Hudi 支持 Schema 演化，可以在不重写数据的情况下添加新列：

[*]Parquet：支持添加新列，向后兼容
[*]Avro：支持 Schema 演化，通过 Schema Registry 管理
[*]ORC：支持添加新列
Schema 演化时，旧数据的新列会使用默认值。
压缩和编码

不同格式使用不同的压缩和编码策略：

[*]Parquet：支持 Snappy、Gzip、LZO 等压缩算法
[*]Avro：支持 Deflate、Snappy 等压缩算法
[*]ORC：支持 Zlib、Snappy、LZO 等压缩算法
压缩算法的选择影响压缩率和压缩速度。
关键对象说明

类关系图

关键类说明

[*]HoodieFileFormat：文件格式枚举，定义了支持的格式类型。
[*]HoodieIOFactory：IO 工厂类，根据存储和格式获取对应的工具类。
[*]FileFormatUtils：文件格式工具抽象类，定义了序列化和反序列化的接口。
[*]ParquetFileFormatUtils：Parquet 格式工具类，处理 Parquet 文件的读写。
[*]AvroFileFormatUtils：Avro 格式工具类，处理 Avro 文件的读写。
[*]HoodieLogFormat：日志文件格式接口，定义了日志文件的读写接口。
[*]HoodieAvroDataBlock：Avro 数据块，日志文件中的数据块实现。
关键操作时序图

下面是一个文件读取操作的时序图，展示了如何读取 Parquet 基础文件和 Avro 日志文件：

代码示例

读取 Parquet 文件

// 获取 IO 工厂
HoodieIOFactory ioFactory = HoodieIOFactory.getIOFactory(storage);

// 获取 Parquet 格式工具
FileFormatUtils parquetUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.PARQUET);

// 读取基础文件
HoodieBaseFile baseFile = fileSlice.getBaseFile().get();
List<HoodieRecord> records = parquetUtils.deserializeRecordsFromLogBlock(
storage,
baseFile.getPath(),
schema
);写入 Avro 日志文件

// 获取 Avro 格式工具
FileFormatUtils avroUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.HOODIE_LOG);

// 序列化记录到日志块
ByteArrayOutputStream outputStream = avroUtils.serializeRecordsToLogBlock(
storage,
records,
schema,
keyFieldName,
paramsMap
);

// 写入日志文件
HoodieLogFileWriter writer = HoodieLogFormat.newWriterBuilder()
.withStorage(storage)
.withLogFile(logFile)
.build();
writer.appendBlock(outputStream.toByteArray());配置文件格式

// 配置基础文件格式为 ORC
HoodieWriteConfig config = HoodieWriteConfig.newBuilder()
.withPath(basePath)
.withBaseFileFormat(HoodieFileFormat.ORC)
.build();总结

Hudi 支持多种文件格式，每种格式都有其适用场景。核心要点：

[*]Parquet 是基础文件的默认格式，列式存储，查询性能好
[*]Avro 是日志文件的格式，行式存储，写入性能好
[*]ORC 可以作为 Parquet 的替代，在某些场景下性能更好
[*]HFile 用于元数据表，键值存储，查找效率高
[*]文件格式选择影响存储效率和查询性能
[*]Schema 演化支持在不重写数据的情况下添加新列
理解文件格式有助于优化 Hudi 表的存储和查询性能，选择合适的格式可以显著提升系统效率。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

程序园's Archiver

Hudi 文件格式分析