本文由 简悦 SimpRead 转码, 原文地址 www.toutiao.com
不过,对于大多数人来说,编译器仍然是遥不可及的神秘存在。C4:4 个函数实现的 C 语言编译器。C4, C in four functions。
自从华为方舟编译器横空出世,一举成为全民网红之后,一下子点燃了大家对编译器的热情。不过,对于大多数人来说,编译器仍然是遥不可及的神秘存在。
今天,介绍一个国外大牛写的 C 语言编译器 - C4,揭开编译器的神秘面纱。原来实现一个具备基本功能的编译器,竟是如此简单!
C4, C in four functions。
它是一个 C 语言编译器项目(项目地址在文末),整个实现只有:
- 一个 C 语言源码文件
- 528 行 C 语言代码
- 4 个函数
仅此而已。
C4 代码仓库
它简洁,却不简单。
它具备完整的词法分析、语法分析、简单的语义检查、代码生成、运行时环境(即虚拟机) 。
与常见的 C 编译器不同的是,它把 C 语言源程序编译成字节码(bytecode),然后在一个精简的虚拟机中解释执行。
你以为这样就完了?不,它令人称道之处远不止如此!
若只是精简,或许它还并不那么令人惊奇,毕竟网上有很多类似的编译器项目,其中不乏一些非常简单优雅,且非常出色的项目。
然而,C4 最惊艳的地方是,它可以自举。
所谓自举,简单来说,就是自己编译自己。 当然,最初始的那个 C4 编译器的可执行文件,还是必须要通过 GCC、Clang 等编译器进行编译生成。
我们下面演示一下 “Hello, World!” 的例子,和 C4 自举的例子。
Hello, World 示例
先用 GCC 把 C4 编译成可执行文件:
|
|
运行 “Hello, World!” 测试程序 hello.c:
结果如图:
其中,“hello, world” 是 hello.c 输出的,“exit(0) cycle = 9” 是 c4 编译器输出的,表示程序正常运行结束,hello.c 一共生成 9 条指令。
C4 的自举示例
我们用 GCC 编译 c4.c 生成了可执行文件 c4,我们称之为编译器 A,然后用编译器 A 来编译 c4 的源码 c4.c,则生成一个编译器 B,然后再用编译器 B 来编译执行 hello.c。
命令如下:
|
|
结果如图:
C4 自举执行
还可以这样:
|
|
也就是 GCC 编译生成的 c4 是编译器 A,./c4 c4.c 生成的是编译器 B, ./c4 c4.c c4.c 编译生成的则是编译器 C,最后用编译器 C 来编译运行 hello.c。
C4 递归自举
理论上可以一直递归下去。只不过,从图中可以看出,递归的层次越深,生成的字节码越多,执行所需的时间也越多。
C4 致力于用最少的代码,实现一个可以自举的 C 编译器。它的整个实现只有 4 个函数组成,可想而知,它不可能完整的实现整个 C 语言的规范,它只实现了 C 语言的一个子集。
数据类型
- char
- int
- 指针
- 枚举(enum)
- 数组
- 字符串
不支持 struct、typedef、union 等数据类型。
语句结构
- if-else 控制语句
- while 循环语句
- return 语句
- 函数
不支持 do-while、switch-case、for、continue、break、goto 等语句结构。
运算符
它支持除 +=、%=、«=、&= 等符合运算符之外的几乎所有运算符。包括:
- 算术运算符
- 关系运算符
- 逻辑运算符
- 位运算符
- 赋值运算符
- 杂项运算符(如三元运算符?:)
内建库函数
C4 编译器实现时用到了一些系统库函数,因此,为了实现自举,它也内建支持了几个库函数。包括:
|
|
需要注意的是,它不支持以 #
开头的预处理命令, 如 #include
define
if 等。
代码注释只支持 “//” 开头的单行注释,不支持 “/* */” 标记的多行注释形式。
与传统的 C 语言编译器相比,C4 在实现上有其独到之处。
下面,先简单介绍一些传统编译器的实现过程。
典型的编译器的实现,一般都会有下面几个过程:
- 词法分析
- 语法分析
- 语义分析
- 中间代码生成
- 代码优化
- 机器代码生成
如 GCC、Clang、华为方舟编译器等均是如此。
这些阶段,会对代码进行多次扫描。这里的代码,包括文本形式的源代码、语法树、中间代码等表示形式。
典型的实现中,词法分析和语法分析通常会糅合在一起,在语法分析时,调用词法分析器逐个取得 token。因此,理论上讲,词法分析和语法分析阶段,只需要对源码扫描一遍即可,并生成语法树,有时也叫抽象语法树(Abstract Syntax Tree)。
语义分析阶段操作的主要对象就是这棵树,至少要对这棵树扫描一遍。有些实现中,在进行语义检查的同时也会直接生成中间代码。
在代码优化阶段,根据编译器优化的力度的不同,可能会对中间代码进行多次扫描。
这里所谓的 “扫描一遍”,在编译器术语中一般称为 pass。对 LLVM 有了解的朋友应该知道,LLVM 中每一种类型的优化都是一个 pass,要应用多种优化技术,就需要有多个 pass。
作为追求极简主义的 C4 编译器来说,它在实现上有很多独具特色之处。
对 C 源码解释执行
传统的 C 语言编译器,最终都把 C 语言源码编译成可执行文件,也就是二进制的机器码。
而 C4 则是把 C 语言源码先编译成其专门设计的字节码(bytecode),然后直接在虚拟机中解释执行。
C4 设计了 39 个字节码指令,其中大部分与汇编语言中的指令有些类似,主要是内存加载指令,算术运算指令等,此外,还包含了为支持内建的库函数而专门设计的 9 条特殊的库函数调用指令。
它的虚拟机是典型的栈式虚拟机(Java 虚拟机也是典型的栈式虚拟机,早期的 Lua 也是栈式虚拟机,但最新的 Lua 5.x 采用寄存器虚拟机)。
我们可以使用 - d 命令,把生成的字节码 dump 出来。下图是 hello.c 的字节码:
对源码只扫描一遍
与传统的编译器实现不同,C4 它把词法分析、语法分析、语义分析、代码生成这几个步骤巧妙的结合在一起,在把 C 语言源码编译成字节码的整个过程中,只扫描了一遍源码。
Lua 的解释器也是采用对源码扫描一遍的方式,因此,C4 和 Lua 的性能都相当不错。
对于 C4 的实现,网上也有一些讨论。有人认为 C4 的实现非常简洁、易读,也有人认为 C4 的实现稍显晦涩。
我个人认为,C4 的实现确实非常简洁,毕竟只有 4 个函数,500 多行代码。但是要真正完全理解,需要有一定的编译原理基础知识。
比如 C4 的语法分析过程中,就是典型的递归下降和算符优先算法相结合的实现方式。只要了解这些编译器的经典算法原理,C4 的实现逻辑理解起来,还是比较轻松的。
此外,C4 为了追求以最少的代码实现自举,在实现上采用了一些技巧。
比如,我们前面提到,C4 不支持 struct 类型。这也意味着 C4 的源码中不能使用 struct 类型。为此,它选择使用数组来模拟 struct 结构。这样乍看起来,可能会产生一些困惑。
个人认为,C4 的一个槽点,就是它变量的命名上,过于简洁。比如标记字节码的位置的变量用 e 表示,其实如果用 emit 的话,就会清晰许多,也会更容易理解。
除了 C4 的原生实现外,网上也有很多基于 C4 的衍生实现。
比如有人给 C4 额外增加了 80 多行代码,却给 C4 添加了 JIT 功能,使得执行速度得到明显提升。
也有人对 C4 做了简单修改,使得它可以直接产生真实的机器码,并最终生成 ELF 可执行文件。
这些都是非常有趣的项目,都很值得研究。
在 github 上,找到用户名为 rswier 的大牛,就可以看到 C4 的项目了。
现代的编译器项目,如 GCC 和 Clang/LLVM,它们实现逻辑非常复杂,代码规模巨大,一个人几乎不可能完全搞清楚。即便是网上备受推崇的精简实现 TCC 和 LCC,它们的实现也相对比较复杂的,作为一个新手来说,也很难彻底研究清楚。
而 C4 的实现,只有四个函数,500 多行源码,个人认为是非常适合新手研究的一个项目。当然了,研究之前,最好具备一些编译器的基础知识,那样理解起来就会比较容易了。
本文只介绍了 C4 编译器项目的一些背景知识,并没有对 C4 的实现做过多探讨。感兴趣的朋友可以到 github 上面找到它,仔细研究一下,相信你会有不少收获!
如果对 C4 的代码实现感兴趣,或者有疑问的话,欢迎留言讨论!感兴趣的朋友多的话,我可以考虑更新几篇文章,详细讲解一下 C4 的代码实现。
原创不易,觉得有用的话,别忘了点赞!谢谢!
对编译器、OS 内核、性能调优、虚拟化等技术感兴趣的童鞋,欢迎右上角关注!
版权声明:未经允许,禁止转载。文中部分图片来源网络,如有侵权,请通知删除!