Session 2: 翻译桥接——从 S1 Echo 到跨语言映射

S1 证明了「我能记住自己」。S2 要回答:「我能把你(德语)翻译成他(英语)吗?」

1. S1 收尾:Echo 验证完毕

语言 数据量 BLEU tok_acc 架构
EN 30K 66.3 82.4% 4 固定模板 + GRU 解码
DE 30K 56.4 78.3% 同上

4 棵固定模板跨语言通用。根哈希唯一性:2000 句 0 碰撞。

S1 的核心发现:per-token 叶子(E[word] + pos[t])是唯一训练成功的解码范式。所有纯树分裂解码器(v3 系列)在 S1 中均未跑通 echo。

2. S2 架构演进

2.1 翻译桥接的核心图

德语句子 → E_de + 固定模板 → root_de [128]
                                    │
                              [Bridge MLP]
                                    │
                                    ▼
英语句子 ← GRU/W_split 解码 ← root_en_pred [128]

2.2 版本迭代史

版本 解码器 桥接 金叶+预测根 BLEU 野生推理 BLEU
v0 GRU + LeafPredictor 残差 MLP 0 0
v1 GRU (gold leaf + pred root) 残差 MLP 0.5 0
v2 (Gem 对齐) GRU (gold leaf + pred root) 残差 MLP → 纯 MLP 18.6 0 (pos_emb bug)
v3 ContinuousSplitCell 5 层分形分裂 纯 MLP 0 (叶同质)
v3 W_split MSE node_table MSE 监督 纯 MLP 0 (叶同质)
v3 Path-Aware + Contrastive 路径注入 + cosine 召回 待接入 跑中 (450K/50K)

2.3 关键决策记录

LeafPredictor(v0)——永久否决。 128 维根哈希膨胀为 T 个独立叶子 → 信息论上不可能。Gemini 审计确认。

GRU 解码器(v2)——验证了 bridge 成立。 在不缺金叶子的条件下(eval 用 gold leaf + pred root),bridge 映射 root_de → root_en 的 BLEU=18.6。证明了跨语言根哈希映射是可行的。野生推理卡在 pos_emb bug。

W_split 树解码器(v3 系列)——均等回报。 根因:W_split 是位置盲的 — 同一深度的所有节点共享同一个算子,不分 LLL 路径还是 RRR 路径。所有叶子趋向同质化(cos≈1.0 → BLEU=0)。

Path-Aware 注入(v3 最新)——叶子已区分 (ct=0, cos<0.5),但 token 召回未收敛 (CE 在 6.9, 目标 < 3.0)。

3. 当前运行状态

3.1 架构

Encoder (0 参数):
  E[ids] → 4 固定模板 → Gumbel-Softmax 选树 → root_hash [128]

Decoder (可训 W_split):
  root_hash → PathAwareSplit(depth, path_prefix) → 32 叶子 → dot E.weight → token
  
Loss:
  CE(leaf @ E.T, gold) + 层均值 MSE + Contrastive(惩罚 cos>0.5)
  
去掉: W_out (Linear 分类器 — 学不动), GRU, LeafPredictor

3.2 训练参数

参数
训练数据 450K 句 (WMT14 英文 + 德文, 10%)
每 epoch 50K 句
总 epoch 30
每次 eval epoch 0, 5, 10, 15, 20, 25, 29
参数诊断 E μ/σ + W μ 每一步

3.3 当前 epoch 0

指标 EN DE
CE 6.87 7.54
mse 0.22 0.29
ct (contrastive) 0.00 0.00
BLEU 0 0
tok_acc 6.7% 5.5%
E μ +0.022 -0.008
E σ 0.985 1.141
W μ -0.016 -0.020

解释:

  • ct=0 → 叶子已区分出来 (cos < 0.5), contrastive 损失不需要了
  • ce=6.87 vs log(14200)≈9.5 → 比随机好, 但离 BLEU>0 尚远
  • E σ≈1.0 → embedding 在 unit sphere (初始化状态)
  • epoch 5 将揭示 CE 能否下降到 < 6.0 → 方向判断

4. 已解决的问题

  1. 模板选择的梯度断裂 → Gumbel-Softmax (forward hard, backward soft)
  2. 桥接手残差污染 → 纯 MLP + 球面归一化
  3. W_out 训不动 → 叶子直接 @ E.weight.T (cosine 召回, 0 参数)
  4. 叶子同质化 → Path-Aware injection (split 看到自己在树的位置)
  5. 数据不足 → 从 10K → 450K (WMT14 10%)

5. 待判断的问题

  1. CE 能否从 6.87 下降 → ep 5/10/15 的趋势将给出明确回答
  2. E 分布是否偏离正态 → parameter diagnostics 会在每 5 epoch 报告
  3. 对称 decoder (W_split 只学一个 child) → 下一步实验候选
  4. Roll 算子的跨语言效应 → S2 bridge 金叶+pred 根 BLEU=18.6, 需要野生推理突破

6. 相关代码

文件 内容
spr_s1_eval.py S1 双语言 echo 评估 (–lang en
spr_s2_bridge.py S2 翻译桥接 (v2, Gem 对齐版)
spr_v3_path_aware.py v3 path-aware decoder + contrastive loss (当前运行)
spr_v3_echo.py v3 连续分裂 echo (ContinuousSplitCell)
spr_v3_mse.py v3 MSE node-table 监督版
spr_fixed_templates.py S1 固定模板实验迭代
spr_collision_analysis.py 根哈希碰撞分布分析

GitHub: houming818/sametime/experiments/


License: GPLv3 本文《SPR》系列采用 GPLv3 协议开源发布。