# RVBTCC - 约 1800 行的轻量级自举编译器。 - 编译器和自举编译器行为一致。 - 语法类似 C,输出 RISC-V 汇编。 - 依赖几个 libc 函数用于输入输出。 - 不使用动态内存分配,嵌入式友好。 ## 用法 如果你有 RISC-V 真机,可以采用真机运行,否则可以考虑模拟运行。两者行为应当是一致的。 ### 真机运行 编译运行程序,src 为本语言源代码。可以编译 demo 文件夹下的实例。 ```sh $ sh run-native.sh ``` 自举编译器,输出的文件位于 build 文件夹中。 ```sh $ sh boot-native.sh ``` 输出六个文件: | 源代码 | 编译器 | 汇编 | 可执行 | 命名 | | ----------------- | --------- | ------- | --------- | ---------------------- | | boot.c boot-lib.c | gcc | | gcc.out | 自制编译器 | | boot.c boot-lib.h | gcc.out | boot1.s | boot1.out | 自举自制编译器 | | boot.c boot-lib.h | boot1.out | boot2.s | boot2.out | 自举自举自制编译器 | | boot.c boot-lib.h | boot2.out | boot3.s | | 验证自举自举自制编译器 | 后三次编译时,boot-lib.h 的内容被手动导入 boot.c 开头进行编译,boot-lib.c 提供的库通过链接引入。 自举的目标为 boot1.s == boot2.s == boot3.s ### 模拟运行 安装以下依赖 ```sh sudo apt install gcc-12-riscv64-linux-gnu qemu-user qemu-system-misc ``` 编译运行程序,src 为本语言源代码。可以编译 demo 文件夹下的实例。 ```sh $ sh run.sh ``` 自举编译器,输出的文件位于 build 文件夹中。 ```sh $ sh boot.sh ``` ## 语言文档 ### 关键字 本语言包含的关键字即为支持的标量类型的关键字和流程控制的关键字,还有 `const`。 ### `const` 关键字 `const` 关键字可以在类型中使用,在大部分情况下会被直接忽略。支持它是为了更好兼容 C 程序。 但是当在出现 - 全局,标量(即不是数组) - 类型为 `const int` 或 `const int const` - 带有初始化 的声明时,将会被解析为整数常量。 整数常量在使用的时候会被直接替换为对应的右值,失去作为全局变量左值的性质。 使用 `int const` 或 `int` 可以避免这样的特殊处理。 ### 支持六个基本类型 | 标量类型 | 指针类型 | | -------- | -------- | | `void` | `void*` | | `char` | `char*` | | `int` | `int*` | - 注意指针类型不是复合得来的,而是被视作整体。因此也不存在二重指针。 - 函数和数组不是类型系统的一部分。 - 可以认为数组的类型就是其元素对应的指针类型。 - 函数的参数类型和个数不会检查,返回值会参与类型检查。 - 函数名只能被用于调用,函数调用被视为初等表达式。 - 数组只支持一维数组,且数组的元素不能是指针类型。 - 整数和字符字面量的类型是 `int`,字符串字面量的类型是 `char*` ### 支持的流程控制 - `if` `else` - `while` `for` `do` - `break` `continue` - `return` ### 支持以下运算符 | 运算符 | 含义 | 结合性 | | --------------------------------- | ----------------------------------------------- | -------- | | `()` | 初等表达式(字面量、标识符、函数调用、括号) | | | `++` `--` `[]` | 后缀自增自减 数组下标 | 从左到右 | | `++` `--` `+` `-` `*` `&` `!` `~` | 前缀自增自减 正负号 取地址 解引用 逻辑非 按位非 | 从右到左 | | `*` `/` `%` | 乘除余 | 从左到右 | | `+` `-` | 加减 | 从左到右 | | `<<` `>>` | 左移和算术右移 | 从左到右 | | `<` `<=` `>` `>=` | 关系比较 | 从左到右 | | `==` `!=` | 相等比较 | 从左到右 | | `&` | 按位与 | 从左到右 | | `^` | 按位异或 | 从左到右 | | | | 按位或 | 从左到右 | | `&&` | 逻辑与 | 从左到右 | | || | 逻辑或 | 从左到右 | | `=` | 赋值 | 从右到左 | - 同级表达式的求值顺序与结合性一致。 - 加减号支持整数之间,指针与整数,指针之间的运算。 - 算术运算的结果总是被提升为 `int` 类型。布尔值用 `int` 类型表示。 - 由于空指针就是 `0`,因此指针和整数之间的比较运算没有禁止。 - 逻辑与和逻辑或支持短路求值。 ### 其它支持与不支持 - 支持全局变量和局部变量,局部变量遮挡全局变量。 - 不支持局部变量之间的遮挡,重名的局部变量为同一变量。 - 支持函数声明,可以通过函数声明来调用 C 语言库。不支持变量声明。 - 函数只支持最多八个参数。函数声明中支持可变参数,仅用于兼容 C 语言库。 - 类型检查可能有遗漏,若 C 编译器报错,而本语言编译通过,就可以认为是 UB。 ## 限制 编译过程中涉及的以下参数: - 符号表总长度、字符串表总长度 - 符号数、字符串数、全局变量数、局部变量数 不能超过源代码中指定的常数。如果有必要这些常数可以适度加大。 目前源代码中的常数能够保证自举。 如果愿意,完全可以把程序中的各类表改为 `malloc` 和 `free` 动态管理,本语言是完全支持的。 ## 依赖 直接依赖下面这些 C 语言库函数,在本语言中提供声明后调用。 - `printf` - `getchar` - `exit` 间接依赖下面这些 C 语言库函数,在 C 语言中进行封装后调用。 - `ungetc`(理论上非必须,可以在本语言中手动模拟) - `vfprintf` 和可变参数有关的宏(用于输出调试信息,非必须)