问题定义:为什么要研究路径路由
SPR 的原始动机不是“再造一个 Transformer”。它更像是在问一个底层问题:
语言模型里的某些搜索和输出,是否必须通过稠密矩阵完成?
Transformer 的强项是通用、并行、可训练。但它也有代价:大量关系被压在矩阵乘法和 softmax 里。我们能看到结果,却不容易看到结构。
SPR 试图换一个表示方式:
vector score -> path decision
dense matrix -> recursive route
token id -> route state
SPR 想替代什么
最初的目标是输出层或结构搜索的一部分。
传统输出层可以写成:
hidden -> Linear(d, V) -> softmax -> token
这是一种“所有 token 一起打分”的方式。SPR 想试试另一种:
hidden -> recursive decisions -> path -> candidate token/state
如果路径结构有效,它可能带来三个好处:
- 参数结构更清楚:路径上的每个节点对应一次判断。
- 搜索空间可压缩:不用每次都扫完整词表或完整图。
- 结构可解释:错误可以定位到路径分叉,而不只是一个 logits 排名。
SPR 不应该被误解成什么
SPR 不是简单的 hash trick。
如果它只是:
token -> fixed bucket
那它最多是高容量 token hash。
真正的 SPR 应该是:
token + context + structure -> conditional path
也就是说,同一个词在不同上下文里可以走向不同状态。
例如:
bank approved the loan -> finance state
river bank -> river-side state
如果做不到这一点,就不能说“路径即语义”。
ARA 方式怎么约束 SPR
这次重写采用 ARA 风格。每个 claim 都要回答三件事:
| 问题 | 说明 |
|---|---|
| Claim 是什么? | 不写模糊胜利,只写可检验句子 |
| Evidence 是什么? | 脚本、命令、指标、数据切片 |
| Falsification 是什么? | 什么结果会推翻这个 claim |
例如:
Claim: S1 token path hash has enough capacity for WMT14 word echo.
Evidence: solo=41311/41429, BLEU-4=99.99.
Falsification: same seed/slice 下 solo rate < 95%.
再例如:
Claim: token-only path encodes contextual semantics.
Evidence: currently failed.
Falsification: same-token polysemy real labels do not beat shuffled labels.
本专题的核心问题
SPR 现在被拆成三个问题:
- 路径作为 hash 是否可靠?
- 路径能否被上下文条件化?
- 路径能否服务结构生成?
第一问已经有较强证据。第二问当前失败。第三问属于 S2,需要单独看 Fold Stack 证据链。
这就是本专题后续文章的主线。
License: GPLv3