Transformer 从零到一

[TF-001] Transformer 从零到一——为什么、是什么、怎么实现
从 RNN 的串行瓶颈出发，走到 Multi-Head Attention 的全并行设计，最后逐行对照 model.py 看懂每一行代码。涵盖 Q/K/V 几何直觉、scaled dot-product、Pre-LN、causal mask、从 NMT 到 GPT 的演进。