桥接架构——七版演进到三尺度分形设计

一、架构演进(七版)

版本 名称 关键变化 结论
v0 LeafPredictor 每 token 直接预测 target BLEU=0, 空间未对齐
v1 GRU repair Bi-GRU 纠正 world_emb 时域 cross-entropy 不正确
v2 W_split 拆出独立 W 矩阵 复杂度过高
v3 Path-aware decoder 路径序列解码 BLEU=0, cross-lingual 不够
v4 CE+WCE 解耦 分开训练两个对齐目标 信号冲突
v5 联合训练 infoNCE + CE joint 单义 anchors 成功, 多义差
v6 LaBSE 锚点 语义锚点替换位置锚点 nce acc 56%→gold 30%
v7 堆树 shared nodes 31 共享节点替代 flat gold 稳定 30%

二、三尺度分形架构(最终设计)

L0 全局记忆槽 (<256)
    每个 token 赋 128D 世界坐标
    跨语言对齐在节点权重里 (CMul←InfoNCE)

L1 共现修复层 (Bi-GRU)
    句子窗口内修正 token 间相互关系
    CE autoencode 做 pretrain

L2 层式折/展树 (<8 层)
    路径编码短语级语序
    训练目标: 路径序列解码

三阶段训练:

  1. EN autoencode (L0+L1)
  2. ZH autoencode (L0+L1, same tree)
  3. Bridge InfoNCE (anchor pairs, align spaces)

三、跨语言对齐方法——VecMap + BPE

为什么 VecMap

方法 前提 真实性 结论
MUSE embedding 已经对齐 cos_L0=0.087 ✗ 前提不成立
VecMap 锚点字典 (≥5000 对) 手工 + LaBSE 锚点 ✓ 可行
Procrustes 两个空间几何相似 cos=0.11 ✗ 空间不成比例

选择: VecMap Procrustes 正交变换(维持 embedding 内部距离),锚点从 LaBSE + 手工构建。

BPE 共享词表

方案 优点 缺点
独立词表 EN/ZH 各自完整 无法跨语言
共享 BPE EN+ZH 联合训练 BPE prefix “▁” 污染评测

教训: BPE prefix 导致 e[0] 评测 bug(见 s2-02),后续必须 mean embedding。