《现代编译原理——C语言描述》阅读笔记

忍痛选修编译原理，大名鼎鼎的虎书。

Introduction

图片加载失败

Lexical Analysis

Regular Expression

正则表达式可以简明扼要的描述单词（Symbol），一般而言，常用的几种语法有：+*.|[]{}。
在词法分析这里，正则只是用来匹配一个字符串，不强调它提取子串的功能，实际上正则引擎还支持更多的功能和操作，比如定位符，分组捕获，反向引用。

Finite Automaton

一个正则表达式很容易转换为非确定有限自动机（NFA）。
编程实现NFA不太方便，直觉上就像DFS、回溯算法等，转换成DFA会更方便程序执行。
NFA转换DFA就是将可能走到的所有结果合并成一个状态，然后将所有可能出口作为新状态的出口。（按图来说的话，就是e线条连接的点当作一个点看待。）

Parsing

Context-Free Grammars

上下文无关文法，用以描述一个无限的状态。
这里的无限指的是递归，而且是两个表达式相互包含的递归，比如sum = expr + expr, expr = sum | digits, 这种形式的正则表达式不合法，它无法被转换为DFA。
上下文无关文法更强大，能够表示这种递归概念，至于如何解析并未包括。

Predicting Parsing \ LL \ LR

上下文无关文法所描述的状态是有二义性的，也就是满足定义的语法树不唯一，这可能会产生错误，也可能不会。
分析器需要选择下一步状态，预测分析就是猜测可能是什么，如果错了就回退，这个很暴力也很直接，就是速度太慢。
LL(k)分析可以提前查看后面k个单词，再确认当前是什么状态。但对于if then else if then这种句子，k不够大的时候，LL也无法正确猜出。也就是说，LL只是多获取了固定信息，一旦预测所需信息超出这个范围，就无能为力。
LR(k)分析会用栈存储遇到的单词，如果还不能判断状态就继续往下读取，直到可以确定。同样，在这时，对于if then，它也会有两种选择，即shift-reduce conflict。这种时候可以限定优先级或者直接指定应该采取的选择，最终达到正确需求就行。（yacc默认是shift）

Abstract Syntax

使用yacc生成抽象树。
这一章的数据结构和函数均为A开头。

Semantic Analysis

语义分析，实际上这一章只是检测一些语义错误，比如类型检查，recursive dec。
在后面会一边检查，一边将A-tree转换为IR-tree。
类型检查基本就是扫描树，按照语法要求就好。

Activity Record

嵌套函数（闭包）

书中给出三种方法：static link, display, lambda lifting。
static link: 简单说就是做到一件事情，每次调用函数g的时候，找到g的上一级函数f（也就是函数g是在函数f内声明的），将f的frame pointer传递给g作为static link。
找到g的上一级，这个事情在编译时可以分析得到。知道了函数f后，通过已有的static link一定能找到f，找不到一定是定义错误。
有了这个static link，就可以访问外层的数据，不过一般是按顺序的，也就是会产生同名覆盖，最近优先。

Frame

传参限制：有一些参数总是放在寄存器里的，由于callee的使用需求，可能需要将部分参数转移到栈上。

Translation to Intermediate Code

Translate、Frame、Temp三个主要部分。
IR-tree中就只有三种类型，Ex，Nx，Cx。
- Ex代表“表达式”
- Nx代表“无结果语句”
- Cx代表“条件语句”

Cx

Cx总是会有两个goto方向，有时候就会产生goto next line这种情形，有些多余。

Basic Blocks and Traces

现在，我们得到了IR-tree，但是它不便于分析，因为其中有ESEQ、CJUMP、CALL等语句，这会导致语句是有顺序的，不同的顺序结果不一样，从而限制了做优化的顺序。
我们可以通过三个步骤将IR-tree转换为等价的、无上述mismatch的形式。
- rewrite the tree into a list of canonical trees without SEQ or ESEQ nodes.
- group the list into a set of basci blocks(no jump or labels).
- order the blocks into a set of traces in which every CJUMP is immediately followed by its false label.

canon

ESEQ

简单说就是把ESEQ往上提，考虑ESEQ(s, e)，移动s和e表达式的时候，只要s在e前面执行，并且最后返回值是e，ESEQ的语义就保留了。
但问题是，移动之后，s和e之间就有了其他的表达式，这些表达式的计算如果和s有关系，那么也会被s的副作用影响，而这是不对的。
我们并不总是能在编译阶段判断两个表达式之间是否有影响，这意思是说，像CONST的语句，肯定无影响，但MEM就无法判断是否是同一个数据，
所以，对于无影响的，我们就能比较简单的交换顺序，有影响的，我们可以通过多做一次MOVE来消除影响。
1
BINOP(op, e1, ESEQ(s, e2))=>ESEQ(MOVE(TEMP t, e1), ESEQ(s, BINOP(op, TEMP t, e2)));
也就是说，用中间变量保存可能受影响的变量。（我觉得这像负优化）
大致思想如上，具体算法有些复杂，不谈。

CALL

a = f1(b) + f2(c)。
像这样的式子，树结构逻辑上也没问题，但机器实现就出问题，因为函数的返回值都是用同一个寄存器（rax）来存的，连续运算两个，有一个就丢失了，然后再op就没法做。

办法和之前一样，用一个临时变量保存一下。

1	CALL(fun, args) => ESEQ(MOVE(TEMP t, CALL(fun, args)),TEMP t)

linearize

总之，一顿操作之后，这个seq语句就全部是顶层，不会位于其他类型节点。
再通过SEQ(SEQ(a,b),c) == SEQ(a,SEQ(b,c))，将seq转换为线性的一个列表。

basic block

入口为label，结束为jump的块。
从头至尾扫描语句序列，发现label就开始一个块（并结束上一个块，加上jump到这个label），发现jump就结束一个块。

trace

我现在才悟到，轨迹其实不是一条，它会有多条，也会有多个结果。因为很显然，有些块会有多个其他块跳过来，就像函数在不同地方被调用。（当然这里做tiger的时候，其实是面向函数体编程，也就是prog，所以这个例子不太恰当）
最直接的办法就是，任意选一个未被任何轨迹包括的块作为新轨迹开始，然后沿着它的跳转到下一个块，不断的做，直到形成环结束。
其实块变成汇编的时候，顺序是无所谓的，因为每个块都有label，重要的是，我们希望jump尽量少，同时，像循环这种，也尽量写成，预测跳转是循环体，能提高条件预测成功率。
对块分析trace，有助于更好的排列块和做优化。

Instruction Selection

每一条指令并不一定对应一个节点，它更像是对应树的一小块结构。选择指令的结果也是多样的，就像积木，不同的内部结构，搭出同样的外形。最终的结果是，指令覆盖了整个树，并且不重叠。
覆盖有两个概念，最优（optimum）覆盖和最佳（optimal）覆盖。
- optimal是不存在可以相邻简化的部分。
- optimum是代价之和为最小。
optimum一定也是optimal。

Maximal Munch

the alogrithm for optimal tiling.
从根节点开始，寻找合适的最大瓦片。
对子树进行相同算法。
本质上就是贪心算法，局部最优，全局不一定。
顺势就会想到，最优可以用动态规划，自底向上。

Abstract Assembly-Language Instructions

在指令选择之前，不太好决定寄存器分配，tiger在指令选择后做寄存器分配。所以我们用了一个抽象指令结构，它们不指定寄存器。
有AS_op，AS_move，AS_jump。

Liveness Analysis

TODO

Register Allocate

寄存器分配，这一章没有太多在实现上花功夫的点，作者给出了全部伪代码。而算法本身，还是有些晦涩难懂的（主要是合并与溢出）。

图着色

通过将变量的冲突关系表示为图中的边，寄存器分配等价于图着色问题，这是一个np完全问题，我们采用启发式的近似算法。但是，似乎最大的把握是即使不能着色还可以将变量放到内存里（即溢出），当然这个就给优化留了不少空间。

启发式算法(K=颜色数量)

图中度数小于K的点，可以被去掉，并且入栈记录，不影响图可着色。
剩下度数大于K的点，假设它可以被去掉，也入栈记录。
然后栈弹出，任意分配颜色。
很明显，如果没有第二步，即所有点度数都小于K，那么一定能着色。
有了第二步，出栈时就有可能无法分配颜色，这时候就是一个溢出，需要将变量放到内存以减小它的活跃范围。

合并节点

合并实际上算一种优化，没有合并也能够分配成功。
合并的原因是两个变量有move关系，也就是在某一刻会出现a=b，并且之后b变量不再使用。那么a、b可以用同一个寄存器并省掉一次move。
但是很遗憾的是，不能将没有冲突（没有冲突就说明a、b不会同时活跃，第二点就成立）的move两端就全部合并，盲目合并可能使得图不可着色，我们采取保守的合并策略，简单说就是，确保这次合并不会影响图着色。
怎样保证呢？只要合并后的点是可被简化的，那么它肯定不影响。
Briggs: a、b合并后的节点ab的高度数(>K)邻节点数量<=K。
George: a的每一个邻居t，t与b已有冲突，或者t是低度数节点。

实现策略

合并引入了复杂度，有这样一个问题，先合并还是先简化？
- 先简化，那么显然，不要直接将move相关的点给简化掉了，那样就少了一次合并机会。
- 先合并，很显然，合并失败的可能性会很大，在极端情况下甚至等同于先简化后合并。
书上采用了先简化的策略，并且规定不能简化传送相关的点，但是有些传送相关的点也不能被合并，所以引入了冻结(freeze)，就是将一个点变为传送无关(放弃尝试合并，变为可简化的)。
当简化、合并、冻结都无法进行，那么图中就全是传送无关的高度数节点，此时采用溢出，假设它可以着色，强行入栈。
最后出栈分配颜色，如果遇到无法分配的，先记录下来，继续分配，最后重写程序，从活跃分析开始重来一次。

预着色节点

图中会有一些节点，代表的就是真实寄存器，比如rax，六个参数寄存器，callee-save寄存器等，这些在codegen时会被显式使用到，所以不可避免地会出现在图中。
它们不应该被合并，也不能被简化，它们具有特定颜色。
它们的活跃范围必须很小，要是真实寄存器的活跃范围都很大，那么还怎么分配寄存器给临时变量呢，它们一定会有很多冲突。
活跃范围主要靠move给一个新的临时变量，过程结束再move回来，这样它在这个过程中就是不活跃的。
实际上，临时变量和真实寄存器一定会被合并，随后的溢出是源于局部变量的分配，当出现call指令，会再用到真实寄存器，call节点上所有量都是活跃的，这时候局部变量和真实寄存器就会冲突，局部变量还会和临时变量冲突，导致必然出现溢出。由于临时变量度数大，所以会先入栈，反而会得不到颜色，导致真实溢出，最后被替换掉。
非callee-save的寄存器活跃范围，需要在call指令的时候，将它们放到call的dst，表示不是跨过程活跃。这样会使得它们与跨过程活跃临时变量冲突，临时变量就会被迫先分配callee-save，如果都不够用，就会溢出。

x86-64的特点思考

一个非常trick的点，如果一个函数内，既有局部变量，又有call指令，那么它一定会产生溢出。
- 如果局部变量放到非callee-save，那么call的时候会冲突。
- 如果放到callee-save，放之前callee-save会冲突（也就是必须为自己的caller保存这些寄存器）。
很令人感到困惑，十六个寄存器竟然还这么多溢出，但是仔细想想确实是这样。