RVBTCC/README.md
2024-11-17 17:23:30 +08:00

5.1 KiB
Raw Blame History

RVBTCC

  • 约 1400 行的轻量级自举编译器。
  • 编译器和自举编译器行为一致。
  • 语法类似 C输出 RISC-V 汇编。
  • 依赖几个 libc 函数用于输入输出。
  • 不使用动态内存分配,嵌入式友好。

用法

目前没提供在 RISC-V 真机上运行和自举的脚本。下面是在其它平台设备上模拟的方案。

安装以下依赖

sudo apt install gcc-12-riscv64-linux-gnu qemu-user qemu-system-misc

编译运行程序src 为本语言源代码。可以编译 demo 文件夹下的实例。

$ sh run.sh <src>

自举编译器,输出的文件位于 build 文件夹中。

$ sh boot.sh

输出六个文件:

源代码 编译器 汇编 可执行 命名
boot.c boot-lib.c gcc gcc.out 自制编译器
boot.c boot-lib.h gcc.out boot1.s boot1.out 自举自制编译器
boot.c boot-lib.h boot1.out boot2.s boot2.out 自举自举自制编译器
boot.c boot-lib.h boot2.out boot3.s 验证自举自举自制编译器

自举的目标为 boot1.s == boot2.s == boot3.s

语言文档

关键字

本语言包含的关键字即为支持的标量类型的关键字和流程控制的关键字,还有 const

const 关键字可以在类型中使用,但会被直接忽略。支持它是为了更好兼容 C 程序。

支持六个基本类型

标量类型 指针类型
void void*
char char*
int int*
  • 注意指针类型不是复合得来的,而是被视作整体。因此也不存在二重指针。

  • 函数和数组不是类型系统的一部分。

    • 可以认为数组的名字就是对应的指针类型。
    • 函数名字本身建议仅用于直接调用,其它行为可视为 UB。
  • 数组只支持一维数组,且数组的元素不能是指针类型。

  • 全局变量不能是指针类型。

  • 整数和字符字面量的类型是 int,字符串字面量的类型是 char*

支持的流程控制

  • if else
  • while for do
  • break continue
  • return

支持以下运算符

运算符 含义 结合性
++ -- () [] 后缀自增自减 函数调用 数组下标 从左到右
++ -- + - * & ! ~ 前缀自增自减 正负号 取地址 解引用 逻辑非 按位非 从右到左
* / % 乘除余 从左到右
+ - 加减 从左到右
<< >> 左移和算术右移 从左到右
< <= > >= 关系比较 从左到右
== != 相等比较 从左到右
& 按位与 从左到右
^ 按位异或 从左到右
| 按位或 从左到右
&& 逻辑与 从左到右
|| 逻辑或 从左到右
= 赋值 从右到左
  • 加减号支持整数之间,指针与整数,指针之间的运算。
  • 逻辑与和逻辑或支持短路求值。

其它支持与不支持

  • 支持全局变量和局部变量,局部变量遮挡全局变量。
  • 重名的局部变量为同一变量,不支持局部变量之间的遮挡。
  • 函数只支持最多八个参数。支持可变参数。
  • 支持函数声明,不支持变量声明。
  • 类型检查做的较少,若 C 编译器报错,而本语言编译通过,就可以认为是 UB。

限制

编译过程中涉及的以下参数:

  • 符号表总长度、字符串表总长度
  • 符号数、字符串数、全局变量数、局部变量数

不能超过源代码中指定的常数。如果有必要这些常数可以适度加大。

目前源代码中的常数能够保证自举。

如果愿意,完全可以把程序中的各类表改为 mallocfree 动态管理,本语言是完全支持的。

依赖

直接依赖下面这些 C 语言库函数,在本语言中提供声明后调用。

  • printf
  • getchar
  • exit

间接依赖下面这些 C 语言库函数,在 C 语言中进行封装后调用。

  • ungetc(理论上非必须,可以在本语言中手动模拟)
  • vfprintf 和可变参数有关的宏(用于输出调试信息,非必须)