词对齐的“滑铁卢”与 Phase 3 L0-L1-L2 渲染管道解码数学规约

在进入 SPR (Semantic Prefix Routing) 的第三阶段 (Phase 3) 文本生成之前,我们需要解答一个长期悬在对齐网络上空的幽灵问题:既然我们的目标是翻译,为什么 Phase 2 仅仅评估了词汇级金标准的 BLI P@1 准确率,而不看句子级的 BLEU 指标?

一、 BLEU 评测的“滑铁卢” (The Oracle BLEU Trap)

在早期的基准测试中(详见实验脚本 spr_align_bleu.pyspr_l0_bleu.py),我们设计了一个极端的思想实验: 假设我们的对齐模型已经完美,实现了 100% 准确的跨语言词级映射。我们把测试集(例如 WMT 英中语料)句子里的每一个英文单词,都通过一张先知字典(Oracle)替换为正确的中文单词,而保留原句的英文语序和句法结构

评测结果令人震惊:

  • Oracle (完美词替换) BLEU: 仅为 ~2.8
  • 原因剖析:中英文之间的差异不仅仅在于符号的表象,更在于高维拓扑结构的排列顺序(句法差异)。中式英文(Chinglish)或英式中文在强依赖 n-gram 匹配的 BLEU 面前,因为无法形成符合目标语言文法规律的连续词块,得分几乎为零。

核心结论:单纯的高维空间点对点映射(Phase 2 的使命)不可能直接产出高 BLEU 分数。这证明了我们在 Phase 2 严格采用 BLI P@1(双语词典对齐精度)来评估模型的纯粹几何容量是绝对正确的决定。

要想真正获得流畅的翻译(高 BLEU),我们必须在模型结构中引入结构重塑与语序渲染的能力。这也是 Phase 3 渲染管道的根本使命。


二、 Phase 3 文本生成架构:L0-L1-L2 渲染管道数学规约

针对上述痛点,我们正式确立了 SPR Phase 3 的 L0、L1、L2 阶梯式递进生成架构。这并非简单的堆砌,而是对翻译本质过程的三层数学解构。

1. L0 层:拓扑底座映射 (Lexical Base Mapping)

L0 是翻译过程的物理学起点,负责剥离一切上下文后的纯词义质心映射。

  • 数学定义:对于源语言 Token $x_i$,其 L0 表示为 $E_{L0}(x_i) \in \mathbb{C}^D$。
  • 机制:通过在阶段一证明的 complex_mul 机制完美重构的基础嵌入层查表。它输出的是一个处于“多义叠加态”或“纯直译”的词汇级向量。
  • 在生成中的作用:提供解码时的基本能量场。没有任何结构装饰。

2. L1 层:极坐标旋转消歧 (Contextual Disambiguation)

单纯的 L0 无法解决 “bank”(河岸/银行)的歧义。L1 的目标是通过引入局部上下文场(Context Field),在复平面上对 L0 向量进行相位旋转。

  • 数学定义: 设局部上下文(例如邻近窗口内)产生的注意力/引流向量为 $C(x_i) \in \mathbb{C}^D$。 $$ E_{L1}(x_i) = E_{L0}(x_i) \otimes C(x_i) $$ 其中 $\otimes$ 代表我们在 Heap Tree 路由中采用的单层复数乘法 (Complex Multiply)
  • 几何意义:$E_{L0}$ 决定了初始的模长(重要性)和基础相位(类别);上下文 $C(x_i)$ 作为一种“引力场”,将其相位强行偏转到特定的子语义分支(例如从混合态偏转到纯“河岸”象限)。
  • 在生成中的作用:输出确定了准确语义分支、但依然遵循源语言顺序的高维特征流。

3. L2 层:语序构建与文法渲染 (Syntax & Order Rendering)

这是彻底解决 Oracle BLEU 低下问题的核心。L2 是最终的输出渲染引擎,负责将 L1 输出的“正确的词向量流”重新排版,并插入必需的语法结构词。

  • 数学定义: $$ \mathbf{Y} = \text{Decoder}_{L2}\left( [E_{L1}(x_1), E_{L1}(x_2), \dots, E_{L1}(x_T)] \right) $$
  • 机制(解码器设计规约): L2 采用一个轻量级的自回归(或非自回归树形解码)Transformer Decoder 结构。
    1. 交叉注意力重排 (Cross-Attention Reordering):动态改变目标语言生成时对 L1 词汇流的关注顺序(解决倒装、定语后置等)。
    2. 结构词补齐 (Structural Token Insertion):根据目标语特性,渲染出源语言不存在但必须存在的结构 Token(如英文生成中的冠词 “the/a”,中文生成中的助词 “的/地/得”)。
  • 在生成中的作用:将语义正确的流形坍缩为符合人类阅读文法的连续 1D 文本序列,直接冲击高 BLEU 分数。

三、 下一步开发计划

随着理论规约的确立,后续工程任务将聚焦于:

  1. 轻量级 L2 解码器实现:在 experiments/ 目录下新建解码测试环境,实现从 $E_{L1}$ 流形到 Token ID 的生成。
  2. 冻结 L0/L1:在初期训练 L2 时,冻结我们在 Phase 2 (align_L3_D256_complex_mul) 取得的底层映射矩阵。
  3. 端到端 BLEU 测试:通过平行的句级语料,开始真正意义上的机器翻译损失优化和 BLEU 验证。