桥接架构——七版演进到三尺度分形设计

一、架构演进（七版）

版本	名称	关键变化	结论
v0	LeafPredictor	每 token 直接预测 target	BLEU=0, 空间未对齐
v1	GRU repair	Bi-GRU 纠正 world_emb	时域 cross-entropy 不正确
v2	W_split	拆出独立 W 矩阵	复杂度过高
v3	Path-aware decoder	路径序列解码	BLEU=0, cross-lingual 不够
v4	CE+WCE 解耦	分开训练两个对齐目标	信号冲突
v5	联合训练	infoNCE + CE joint	单义 anchors 成功, 多义差
v6	LaBSE 锚点	语义锚点替换位置锚点	nce acc 56%→gold 30%
v7	堆树 shared nodes	31 共享节点替代 flat	gold 稳定 30%

二、三尺度分形架构（最终设计）

L0 全局记忆槽 (<256)
    每个 token 赋 128D 世界坐标
    跨语言对齐在节点权重里 (CMul←InfoNCE)

L1 共现修复层 (Bi-GRU)
    句子窗口内修正 token 间相互关系
    CE autoencode 做 pretrain

L2 层式折/展树 (<8 层)
    路径编码短语级语序
    训练目标: 路径序列解码

三阶段训练：

EN autoencode (L0+L1)
ZH autoencode (L0+L1, same tree)
Bridge InfoNCE (anchor pairs, align spaces)

三、跨语言对齐方法——VecMap + BPE

为什么 VecMap

方法	前提	真实性	结论
MUSE	embedding 已经对齐	cos_L0=0.087	✗ 前提不成立
VecMap	锚点字典 (≥5000 对)	手工 + LaBSE 锚点	✓ 可行
Procrustes	两个空间几何相似	cos=0.11	✗ 空间不成比例

选择： VecMap Procrustes 正交变换（维持 embedding 内部距离），锚点从 LaBSE + 手工构建。

BPE 共享词表

方案	优点	缺点
独立词表	EN/ZH 各自完整	无法跨语言
共享 BPE	EN+ZH 联合训练	BPE prefix “▁” 污染评测

教训： BPE prefix 导致 e[0] 评测 bug（见 s2-02），后续必须 mean embedding。

桥接架构——七版演进到三尺度分形设计#

一、架构演进（七版）#

二、三尺度分形架构（最终设计）#

三、跨语言对齐方法——VecMap + BPE#

为什么 VecMap#

BPE 共享词表#

桥接架构——七版演进到三尺度分形设计

一、架构演进（七版）

二、三尺度分形架构（最终设计）

三、跨语言对齐方法——VecMap + BPE

为什么 VecMap

BPE 共享词表