分枝度实验——出度 K 与路径覆盖复杂度

背景

S2-03 核心结论:31 共享节点 × InfoNCE → 信息通路未通。

独立 128D path (不经过树): ms=97%, cos=0.14
AttnPaths (经 31 共享节点): ms=33%, cos=0.99
DiffTree 保住节点正交, 注意力坍缩
维度缩放无效

根因推测:路径数不足。 K=2 仅有 16 条路径,1079 多义词平均 0.015 条专属路径。

分枝度

两个独立变量:

  • 节点数 ~ K^depth(存 token 信息的容量)
  • 路径数 ~ K^(depth-1)(存 token 歧义的容量)
K depth 节点 路径 每词路径
2 5 31 16 0.015
4 5 341 256 0.24
16 3 273 256 0.24

S1 先例

S1 echo:4 chunk × 128 路由 → 2.68 亿哈希槽 → 独叶率 99.7% → BLEU=99.99。

分支度是节点空间版的 multi-chunk 路由。

实验

三组 128D 随机初始化,20K ECDICT,BLI P@1。

K depth 节点 路径
A 2 5 31 16
B 4 5 341 256
C 16 3 273 256