RVBTCC/README.md
2024-11-18 17:54:03 +08:00

155 lines
6.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# RVBTCC
- 约 1500 行的轻量级自举编译器。
- 编译器和自举编译器行为一致。
- 语法类似 C输出 RISC-V 汇编。
- 依赖几个 libc 函数用于输入输出。
- 不使用动态内存分配,嵌入式友好。
## 用法
如果你有 RISC-V 真机,可以采用真机运行,否则可以考虑模拟运行。两者行为应当是一致的。
### 真机运行
编译运行程序src 为本语言源代码。可以编译 demo 文件夹下的实例。
```sh
$ sh run-native.sh <src>
```
自举编译器,输出的文件位于 build 文件夹中。
```sh
$ sh boot-native.sh
```
输出六个文件:
| 源代码 | 编译器 | 汇编 | 可执行 | 命名 |
| ----------------- | --------- | ------- | --------- | ---------------------- |
| boot.c boot-lib.c | gcc | | gcc.out | 自制编译器 |
| boot.c boot-lib.h | gcc.out | boot1.s | boot1.out | 自举自制编译器 |
| boot.c boot-lib.h | boot1.out | boot2.s | boot2.out | 自举自举自制编译器 |
| boot.c boot-lib.h | boot2.out | boot3.s | | 验证自举自举自制编译器 |
后三次编译时boot-lib.h 的内容被手动导入 boot.c 开头进行编译boot-lib.c 提供的库通过链接引入。
自举的目标为 boot1.s == boot2.s == boot3.s
### 模拟运行
安装以下依赖
```sh
sudo apt install gcc-12-riscv64-linux-gnu qemu-user qemu-system-misc
```
编译运行程序src 为本语言源代码。可以编译 demo 文件夹下的实例。
```sh
$ sh run.sh <src>
```
自举编译器,输出的文件位于 build 文件夹中。
```sh
$ sh boot.sh
```
## 语言文档
### 关键字
本语言包含的关键字即为支持的标量类型的关键字和流程控制的关键字,还有 `const`
`const` 关键字可以在类型中使用,但会被直接忽略。支持它是为了更好兼容 C 程序。
### 支持六个基本类型
| 标量类型 | 指针类型 |
| -------- | -------- |
| `void` | `void*` |
| `char` | `char*` |
| `int` | `int*` |
- 注意指针类型不是复合得来的,而是被视作整体。因此也不存在二重指针。
- 函数和数组不是类型系统的一部分。
- 可以认为数组的类型就是其元素对应的指针类型。
- 函数保存了其返回值的类型,建议仅用于直接调用,其它操作可视为 UB。
- 数组只支持一维数组,且数组的元素不能是指针类型。
- 全局变量不能是指针类型。
- 整数和字符字面量的类型是 `int`,字符串字面量的类型是 `char*`
### 支持的流程控制
- `if` `else`
- `while` `for` `do`
- `break` `continue`
- `return`
### 支持以下运算符
| 运算符 | 含义 | 结合性 |
| --------------------------------- | ----------------------------------------------- | -------- |
| `++` `--` `()` `[]` | 后缀自增自减 函数调用 数组下标 | 从左到右 |
| `++` `--` `+` `-` `*` `&` `!` `~` | 前缀自增自减 正负号 取地址 解引用 逻辑非 按位非 | 从右到左 |
| `*` `/` `%` | 乘除余 | 从左到右 |
| `+` `-` | 加减 | 从左到右 |
| `<<` `>>` | 左移和算术右移 | 从左到右 |
| `<` `<=` `>` `>=` | 关系比较 | 从左到右 |
| `==` `!=` | 相等比较 | 从左到右 |
| `&` | 按位与 | 从左到右 |
| `^` | 按位异或 | 从左到右 |
| <code>&#124;</code> | 按位或 | 从左到右 |
| `&&` | 逻辑与 | 从左到右 |
| <code>&#124;&#124;</code> | 逻辑或 | 从左到右 |
| `=` | 赋值 | 从右到左 |
- 同级表达式的求值顺序与结合性一致。
- 加减号支持整数之间,指针与整数,指针之间的运算。
- 算术运算的结果总是被提升为 `int` 类型。布尔值用 `int` 类型表示。
- 由于空指针就是 `0`,因此指针和整数之间的比较运算没有禁止。
- 逻辑与和逻辑或支持短路求值。
- 表达式没有左值和右值之分。可以认为右值总是存在一个临时的变量中。
- 赋值不检查类型。强制类型转换可以用赋值给特定类型的变量实现。
- 函数的参数类型和个数不会检查,返回值会参与类型检查。
### 其它支持与不支持
- 支持全局变量和局部变量,局部变量遮挡全局变量。
- 不支持局部变量之间的遮挡,重名的局部变量为同一变量。
- 支持函数声明,可以通过函数声明来调用 C 语言库。不支持变量声明。
- 函数只支持最多八个参数。函数声明中支持可变参数,仅用于兼容 C 语言库。
- 类型检查可能有遗漏,若 C 编译器报错,而本语言编译通过,就可以认为是 UB。
## 限制
编译过程中涉及的以下参数:
- 符号表总长度、字符串表总长度
- 符号数、字符串数、全局变量数、局部变量数
不能超过源代码中指定的常数。如果有必要这些常数可以适度加大。
目前源代码中的常数能够保证自举。
如果愿意,完全可以把程序中的各类表改为 `malloc``free` 动态管理,本语言是完全支持的。
## 依赖
直接依赖下面这些 C 语言库函数,在本语言中提供声明后调用。
- `printf`
- `getchar`
- `exit`
间接依赖下面这些 C 语言库函数,在 C 语言中进行封装后调用。
- `ungetc`(理论上非必须,可以在本语言中手动模拟)
- `vfprintf` 和可变参数有关的宏(用于输出调试信息,非必须)