SameTime WMT 专题

License: GPLv3
本文《SameTime》系列采用 GNU 通用公共许可证第三版 (GNU General Public License v3.0) 协议进行开源发布与分发。允许任何形式的复制、修改和分发，但必须继承相同的开源协议，承认在算力宇宙中所有的迭代与变异。

SameTime WMT 专题：Attention——从时序链到全连接邻接图
RNN 用单条时间链关押所有词的关系——Attention 把每个词放进独立桶，用邻接矩阵保留全连接图。SoftBLEU 的下一个瓶颈：vocab 稀释梯度。
SameTime WMT 专题：Phase 0 实验底座骨架
开启 SameTime 的 WMT 学习专题，聚焦 benchmark/wmt/phase0 的骨架实验与翻译管线构建。
SameTime WMT 专题：Phase 1 从 RNN 记忆到 LSTM 门控
SameTime WMT Phase 1 学习记录——拆分为 1.0 vanilla RNN（理解记忆原理）和 1.1 LSTM（解决梯度消失），逐级对比。
SameTime WMT 专题：Phase 6 Transformer——从 3 到 11 的跃迁，以及通往学术基线的路
Attention 天花板 3.77，Transformer 词级 11.49，BPE 小模型 10.66。下一步：BPE d512 大模型追学术基线 20-25。
SameTime WMT 专题：可微 BLEU 的算法代价——从黑板公式到 GPU 现实
SoftBLEU 理论是对的——但在 GPU 上跑 Python 循环不属于这份正确。
SameTime WMT 专题：实验总览——从 RNN 到 Attention 的技术组合与天花板
Phase 1 RNN 和 Phase 2 Attention 的全部实验编号与最佳 BLEU 总结。
SameTime WMT 专题：梯度函数决定学习规律
从 sin(0.76) 到 tanh(3.06) 的距离，不是函数好坏——是梯度方向的自洽性决定了一个模型能走多远。