Session 2: 翻译桥接——从 S1 Echo 到跨语言映射
S1 证明了「我能记住自己」。S2 要回答:「我能把你(德语)翻译成他(英语)吗?」
1. S1 收尾:Echo 验证完毕
| 语言 | 数据量 | BLEU | tok_acc | 架构 |
|---|---|---|---|---|
| EN | 30K | 66.3 | 82.4% | 4 固定模板 + GRU 解码 |
| DE | 30K | 56.4 | 78.3% | 同上 |
4 棵固定模板跨语言通用。根哈希唯一性:2000 句 0 碰撞。
S1 的核心发现:per-token 叶子(E[word] + pos[t])是唯一训练成功的解码范式。所有纯树分裂解码器(v3 系列)在 S1 中均未跑通 echo。
2. S2 架构演进
2.1 翻译桥接的核心图
德语句子 → E_de + 固定模板 → root_de [128]
│
[Bridge MLP]
│
▼
英语句子 ← GRU/W_split 解码 ← root_en_pred [128]
2.2 版本迭代史
| 版本 | 解码器 | 桥接 | 金叶+预测根 BLEU | 野生推理 BLEU |
|---|---|---|---|---|
| v0 | GRU + LeafPredictor | 残差 MLP | 0 | 0 |
| v1 | GRU (gold leaf + pred root) | 残差 MLP | 0.5 | 0 |
| v2 (Gem 对齐) | GRU (gold leaf + pred root) | 残差 MLP → 纯 MLP | 18.6 | 0 (pos_emb bug) |
| v3 ContinuousSplitCell | 5 层分形分裂 | 纯 MLP | — | 0 (叶同质) |
| v3 W_split MSE | node_table MSE 监督 | 纯 MLP | — | 0 (叶同质) |
| v3 Path-Aware + Contrastive | 路径注入 + cosine 召回 | 待接入 | 跑中 (450K/50K) | — |
2.3 关键决策记录
LeafPredictor(v0)——永久否决。 128 维根哈希膨胀为 T 个独立叶子 → 信息论上不可能。Gemini 审计确认。
GRU 解码器(v2)——验证了 bridge 成立。 在不缺金叶子的条件下(eval 用 gold leaf + pred root),bridge 映射 root_de → root_en 的 BLEU=18.6。证明了跨语言根哈希映射是可行的。野生推理卡在 pos_emb bug。
W_split 树解码器(v3 系列)——均等回报。 根因:W_split 是位置盲的 — 同一深度的所有节点共享同一个算子,不分 LLL 路径还是 RRR 路径。所有叶子趋向同质化(cos≈1.0 → BLEU=0)。
Path-Aware 注入(v3 最新)——叶子已区分 (ct=0, cos<0.5),但 token 召回未收敛 (CE 在 6.9, 目标 < 3.0)。
3. 当前运行状态
3.1 架构
Encoder (0 参数):
E[ids] → 4 固定模板 → Gumbel-Softmax 选树 → root_hash [128]
Decoder (可训 W_split):
root_hash → PathAwareSplit(depth, path_prefix) → 32 叶子 → dot E.weight → token
Loss:
CE(leaf @ E.T, gold) + 层均值 MSE + Contrastive(惩罚 cos>0.5)
去掉: W_out (Linear 分类器 — 学不动), GRU, LeafPredictor
3.2 训练参数
| 参数 | 值 |
|---|---|
| 训练数据 | 450K 句 (WMT14 英文 + 德文, 10%) |
| 每 epoch | 50K 句 |
| 总 epoch | 30 |
| 每次 eval | epoch 0, 5, 10, 15, 20, 25, 29 |
| 参数诊断 | E μ/σ + W μ 每一步 |
3.3 当前 epoch 0
| 指标 | EN | DE |
|---|---|---|
| CE | 6.87 | 7.54 |
| mse | 0.22 | 0.29 |
| ct (contrastive) | 0.00 | 0.00 |
| BLEU | 0 | 0 |
| tok_acc | 6.7% | 5.5% |
| E μ | +0.022 | -0.008 |
| E σ | 0.985 | 1.141 |
| W μ | -0.016 | -0.020 |
解释:
ct=0→ 叶子已区分出来 (cos < 0.5), contrastive 损失不需要了ce=6.87vslog(14200)≈9.5→ 比随机好, 但离 BLEU>0 尚远E σ≈1.0→ embedding 在 unit sphere (初始化状态)- epoch 5 将揭示 CE 能否下降到 < 6.0 → 方向判断
4. 已解决的问题
- 模板选择的梯度断裂 → Gumbel-Softmax (forward hard, backward soft)
- 桥接手残差污染 → 纯 MLP + 球面归一化
- W_out 训不动 → 叶子直接
@ E.weight.T(cosine 召回, 0 参数) - 叶子同质化 → Path-Aware injection (split 看到自己在树的位置)
- 数据不足 → 从 10K → 450K (WMT14 10%)
5. 待判断的问题
- CE 能否从 6.87 下降 → ep 5/10/15 的趋势将给出明确回答
- E 分布是否偏离正态 → parameter diagnostics 会在每 5 epoch 报告
- 对称 decoder (W_split 只学一个 child) → 下一步实验候选
- Roll 算子的跨语言效应 → S2 bridge 金叶+pred 根 BLEU=18.6, 需要野生推理突破
6. 相关代码
| 文件 | 内容 |
|---|---|
spr_s1_eval.py |
S1 双语言 echo 评估 (–lang en |
spr_s2_bridge.py |
S2 翻译桥接 (v2, Gem 对齐版) |
spr_v3_path_aware.py |
v3 path-aware decoder + contrastive loss (当前运行) |
spr_v3_echo.py |
v3 连续分裂 echo (ContinuousSplitCell) |
spr_v3_mse.py |
v3 MSE node-table 监督版 |
spr_fixed_templates.py |
S1 固定模板实验迭代 |
spr_collision_analysis.py |
根哈希碰撞分布分析 |
GitHub: houming818/sametime/experiments/
License: GPLv3 本文《SPR》系列采用 GPLv3 协议开源发布。