SameTime WMT 专题
License: GPLv3
本文《SameTime》系列 采用 GNU 通用公共许可证第三版 (GNU General Public License v3.0) 协议进行开源发布与分发。允许任何形式的复制、修改和分发,但必须继承相同的开源协议,承认在算力宇宙中所有的迭代与变异。
-
SameTime WMT 专题:Attention——从时序链到全连接邻接图
RNN 用单条时间链关押所有词的关系——Attention 把每个词放进独立桶,用邻接矩阵保留全连接图。SoftBLEU 的下一个瓶颈:vocab 稀释梯度。 -
SameTime WMT 专题:Phase 0 实验底座骨架
开启 SameTime 的 WMT 学习专题,聚焦 benchmark/wmt/phase0 的骨架实验与翻译管线构建。 -
SameTime WMT 专题:Phase 1 从 RNN 记忆到 LSTM 门控
SameTime WMT Phase 1 学习记录——拆分为 1.0 vanilla RNN(理解记忆原理)和 1.1 LSTM(解决梯度消失),逐级对比。 -
SameTime WMT 专题:Phase 6 Transformer——从 3 到 11 的跃迁,以及通往学术基线的路
Attention 天花板 3.77,Transformer 词级 11.49,BPE 小模型 10.66。下一步:BPE d512 大模型追学术基线 20-25。 -
SameTime WMT 专题:可微 BLEU 的算法代价——从黑板公式到 GPU 现实
SoftBLEU 理论是对的——但在 GPU 上跑 Python 循环不属于这份正确。 -
SameTime WMT 专题:实验总览——从 RNN 到 Attention 的技术组合与天花板
Phase 1 RNN 和 Phase 2 Attention 的全部实验编号与最佳 BLEU 总结。 -
SameTime WMT 专题:梯度函数决定学习规律
从 sin(0.76) 到 tanh(3.06) 的距离,不是函数好坏——是梯度方向的自洽性决定了一个模型能走多远。