桥接架构——七版演进到三尺度分形设计
一、架构演进(七版)
| 版本 | 名称 | 关键变化 | 结论 |
|---|---|---|---|
| v0 | LeafPredictor | 每 token 直接预测 target | BLEU=0, 空间未对齐 |
| v1 | GRU repair | Bi-GRU 纠正 world_emb | 时域 cross-entropy 不正确 |
| v2 | W_split | 拆出独立 W 矩阵 | 复杂度过高 |
| v3 | Path-aware decoder | 路径序列解码 | BLEU=0, cross-lingual 不够 |
| v4 | CE+WCE 解耦 | 分开训练两个对齐目标 | 信号冲突 |
| v5 | 联合训练 | infoNCE + CE joint | 单义 anchors 成功, 多义差 |
| v6 | LaBSE 锚点 | 语义锚点替换位置锚点 | nce acc 56%→gold 30% |
| v7 | 堆树 shared nodes | 31 共享节点替代 flat | gold 稳定 30% |
二、三尺度分形架构(最终设计)
L0 全局记忆槽 (<256)
每个 token 赋 128D 世界坐标
跨语言对齐在节点权重里 (CMul←InfoNCE)
L1 共现修复层 (Bi-GRU)
句子窗口内修正 token 间相互关系
CE autoencode 做 pretrain
L2 层式折/展树 (<8 层)
路径编码短语级语序
训练目标: 路径序列解码
三阶段训练:
- EN autoencode (L0+L1)
- ZH autoencode (L0+L1, same tree)
- Bridge InfoNCE (anchor pairs, align spaces)
三、跨语言对齐方法——VecMap + BPE
为什么 VecMap
| 方法 | 前提 | 真实性 | 结论 |
|---|---|---|---|
| MUSE | embedding 已经对齐 | cos_L0=0.087 | ✗ 前提不成立 |
| VecMap | 锚点字典 (≥5000 对) | 手工 + LaBSE 锚点 | ✓ 可行 |
| Procrustes | 两个空间几何相似 | cos=0.11 | ✗ 空间不成比例 |
选择: VecMap Procrustes 正交变换(维持 embedding 内部距离),锚点从 LaBSE + 手工构建。
BPE 共享词表
| 方案 | 优点 | 缺点 |
|---|---|---|
| 独立词表 | EN/ZH 各自完整 | 无法跨语言 |
| 共享 BPE | EN+ZH 联合训练 | BPE prefix “▁” 污染评测 |
教训: BPE prefix 导致 e[0] 评测 bug(见 s2-02),后续必须 mean embedding。