Linux C++ 开发3 - 你写的Hello world经过哪些过程才被计算机理解和执行？ - 代码 - 程序园

威割发表于 2025-6-4 09:51:41

Linux C++ 开发3 - 你写的Hello world经过哪些过程才被计算机理解和执行？

[*]1. C/C++的编译过程

[*]1.1. 预处理
[*]1.2. 编译
[*]1.3. 汇编

[*]1.3.1. 汇编过程
[*]1.3.2. 目标文件

[*]1.4. 链接

[*]2. 编译过程示例

[*]2.1. 源代码
[*]2.2. 逐步编译程序

[*]2.2.1. 编译指令
[*]2.2.2. 链接报错问题

[*]2.3. 单步编译

[*]3. gcc/g++与gpp、as、ld的关系

[*]3.1. 关系图
[*]3.2. 示例演示

[*]4. 参考文档
上一篇《Linux C++ 开发2 - 编写、编译、执行第一个程序》我们编写了一个Hello world程序，并在Linux下完成了正常的编译和执行。
上一篇中我们用g++ ./demo01.cpp这个指令就轻松将我们的demo01.cpp源代码编译成了二进制程序，那你知道这个指令内部经历了哪些过程吗？
1. C/C++的编译过程

先说结论：C/C++的编译过程包括预处理、编译、汇编、链接四个关键的步骤，整个编译的处理流程如下图所示：

更粗粒度的划分，我们又把预处理、编译、汇编称为编译过程，就是把源代码(.c/.cpp/.cc)生成目标代码；链接的动作单独一个过程，称为链接过程。
1.1. 预处理

预处理也称为预编译，由预处理器（cpp）执行，预处理阶段主要处理一些预处理指令，比如文件包含、宏定义、条件编译等。

[*]文件包含，也就是将所有通过#include包含的头文件替换成真正的内容。
[*]宏定义，预处理时需要把所有的宏定义替换成真正的内容。
[*]条件编译，也就是通过如#ifdef, #ifndef, #else, #elif, #endif等指令定义的条件编译，预处理会把不符合条件的代码删除，只保留符合条件的代码。
1.2. 编译

编译阶段要做的工作就是通过词法分析、语法分析和语义分析，在确认所有的源代码都符合语法规则之后，将其翻译成等价的汇编代码(中间代码)，即.s或.asm文件。这个过程是整个程序构建的核心部分，也是最复杂的部分之一。
更多关于汇编语言的介绍参加《汇编语言1 - 什么是汇编语言？》。
除此之外，编译器还会在这个阶段进行代码优化。优化主要包含两大部分：一部分是对源代码本身逻辑的优化，如删除公共表达式、删除无用赋值、循环优化、复写传播等。另一部分是根据目标设备的硬件结构，对执行指令进行优化，如寄存器分配、指令调度、指令合并等。
1.3. 汇编

1.3.1. 汇编过程

汇编的过程就是通过不同平台的汇编器(如：Linux的AS、Windows的MASM)将汇编代码翻译成机器能识别的机器码，即生成目标文件(Linux下是.o，windows下是.obj)。
1.3.2. 目标文件

目标文件（Object File）是源代码经过预处理、编译、汇编后生成的中间文件，Linux下的目标文件(.o)的文件格式是ELF(Executable and Linkable Format)，它包含了机器代码、数据、符号表和重定位信息等。
我们来看一个.o文件的文件头，
# 查看.o文件的文件头
objdump -h demo01.o
# 输出结果：文件的组成
demo01.o: file format elf64-x86-64

Sections:
Idx Name       Size    VMA             LMA             File offAlgn
0 .text       0000003a00000000000000000000000000000000000000402**0
               CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE
1 .data       00000000000000000000000000000000000000000000007a2**0
               CONTENTS, ALLOC, LOAD, DATA
2 .bss       00000000000000000000000000000000000000000000007a2**0
               ALLOC
3 .rodata    00000011000000000000000000000000000000000000007a2**0
               CONTENTS, ALLOC, LOAD, READONLY, DATA
4 .comment    00000027000000000000000000000000000000000000008b2**0
               CONTENTS, READONLY
5 .note.GNU-stack 0000000000000000000000000000000000000000000000b22**0
               CONTENTS, READONLY
6 .note.gnu.property 0000002000000000000000000000000000000000000000b82**3
               CONTENTS, ALLOC, LOAD, READONLY, DATA
7 .eh_frame 0000003800000000000000000000000000000000000000d82**3
               CONTENTS, ALLOC, LOAD, RELOC, READONLY, DATA行：

[*].text: 代码段(存放函数的二进制机器指令)
[*].data: 数据段(存已初始化的局部/全局静态变量、未初始化的全局静态变量)
[*].bss: bss段(声明未初始化变量所占大小)
[*].rodata: 只读数据段(存放 " " 引住的只读字符串)
[*].comment: 注释信息段
[*].node.GUN-stack: 堆栈提示段
列：

[*]Size: 段的长度
[*]File Off: 段的所在位置(即距离文件头的偏移位置)
段的属性：

[*]CONTENTS: 表示该段在文件中存在
[*]ALLOC: 表示只分配了大小，但没有存内容
1.4. 链接

程序的链接阶段可分为两个步骤：

[*]第一步：由于每个.o文件都有都有自己的代码段、bss段，堆，栈等，所以链接器首先将多个.o 文件相应的段进行合并，建立映射关系及合并符号表。进行符号解析，符号解析完成后就是给符号分配虚拟地址。
[*]第二步：将分配好的虚拟地址与符号表中定义的符号一一对应起来，使其成为正确的地址，使代码段的指令可以根据符号的地址执行相应的操作，最后由链接器生成可执行文件。
2. 编译过程示例

2.1. 源代码

我们还是以《Linux C++ 开发2 - 编写、编译、执行第一个程序》中使用的源代码为例进行讲解。
demo01.cpp:
#include int main(){ std::cout

劳暄美 发表于 2025-11-28 18:21:06

这个有用。

锦惺发表于 2025-12-6 02:11:03

懂技术并乐意极积无私分享的人越来越少。珍惜

页: [1]

程序园's Archiver

Linux C++ 开发3 - 你写的Hello world经过哪些过程才被计算机理解和执行？