Phase 3 L2 Decoder 扩容与打破词对齐天花板

在之前的日志中，我们发现了一个关键瓶颈：冻结的、纯语义的 L1 流形缺乏显式的句法顺序信息，导致直接基于 Oracle 1-NN 词对齐的翻译 BLEU 分数被限制在 ~2.8 左右。

我们提出的解决方案是 L2 句法解码器 (L2 Syntactic Decoder)，这是一个基于 Transformer 的自回归层，它以冻结的 L1 连续空间为条件，渲染出符合目标语言语法的序列。今天，我们对该架构进行了扩容，并成功打破了 BLEU 天花板。

一、扩容实验 (The Scaling Experiment)

最初，128 维 ($d_{model}=128$) 的 L2 Decoder 在 30 轮训练后表现出典型的退化行为：

于是，我们提交了一个大幅扩容的夜间训练任务：

本次扩容让模型的生成能力实现了质的飞跃：

生成样例：

EN (Source/原文)： 首先，联邦公开市场委员会表示2015年12月的利率增长将是在随后一年内合共五轮利率上升中的第一轮，也是2017年9月之前九轮上升的第一轮。
Reference (参考译文)： First, the FOMC indicated that the December 2015 rate increase would be the first of five such increases that it would make within the subsequent year, and the first of nine that would take place by, say, September 2017.
L2 Decoder (Epoch 100)： First, the first five-year Fed’s first official GDP growth in December 2017 was also a year of 2015 to the Federal Open Market Committee, which is also an indication that the market rate will rise by 1799%.

虽然在具体的语义精度（例如特定数字和具体名词）上模型仍在进行“幻觉”式探索，但它的语法连贯性（例如正确使用了定语从句 which is also an indication that...）证明了 L2 解码器成功地从不变的 L1 语义流形中提取并应用了句法顺序约束。

虽然我们已经编写并计划引入 束搜索 (Beam Search) 来进一步缓解早期的解码错误，但我们深知，真正推动 SOTA (State of the Art) 依然需要依赖我们的理论模型。

Beam Search 只是工程上的“创可贴”；真正的突破需要深入分析 L1 -> L2 的信息流。是否存在拓扑瓶颈？冻结的 L1 流形在复数乘法阶段是否丢失了关键的句法上下文？我们下一步的理论探索将涉及 L1-L2 边界的信息熵测量，用数学工具而非单纯的堆算力来指导优化。

目前，我们的管道仅使用 98,000 句 WMT17 平行语料进行训练——这在标准 NMT (神经机器翻译) 训练体制中只是九牛一毛。

我们能否使用外部语料来冲击 WMT 榜单？ 完全可以。 WMT 设有“无限制组 (Unconstrained Track)”，允许研究者使用任何外部数据集（如 ParaCrawl, UN Parallel Corpus, OpenSubtitles 等）。

我们近期的下一步核心行动是：将千万级 (Tens of millions) 的无限制平行语料拉取到 NAS 中，完成数据清洗，基于海量数据重新训练，开启 Checkpoint 机制，让模型确立最终极的 SPR 翻译基线标准。