问题定义：为什么要研究路径路由

SPR 的原始动机不是“再造一个 Transformer”。它更像是在问一个底层问题：

语言模型里的某些搜索和输出，是否必须通过稠密矩阵完成？

Transformer 的强项是通用、并行、可训练。但它也有代价：大量关系被压在矩阵乘法和 softmax 里。我们能看到结果，却不容易看到结构。

SPR 试图换一个表示方式：

vector score -> path decision
dense matrix -> recursive route
token id -> route state

SPR 想替代什么

最初的目标是输出层或结构搜索的一部分。

传统输出层可以写成：

hidden -> Linear(d, V) -> softmax -> token

这是一种“所有 token 一起打分”的方式。SPR 想试试另一种：

hidden -> recursive decisions -> path -> candidate token/state

如果路径结构有效，它可能带来三个好处：

参数结构更清楚：路径上的每个节点对应一次判断。
搜索空间可压缩：不用每次都扫完整词表或完整图。
结构可解释：错误可以定位到路径分叉，而不只是一个 logits 排名。

SPR 不应该被误解成什么

SPR 不是简单的 hash trick。

如果它只是：

token -> fixed bucket

那它最多是高容量 token hash。

真正的 SPR 应该是：

token + context + structure -> conditional path

也就是说，同一个词在不同上下文里可以走向不同状态。

例如：

bank approved the loan -> finance state
river bank             -> river-side state

如果做不到这一点，就不能说“路径即语义”。

ARA 方式怎么约束 SPR

这次重写采用 ARA 风格。每个 claim 都要回答三件事：

问题	说明
Claim 是什么？	不写模糊胜利，只写可检验句子
Evidence 是什么？	脚本、命令、指标、数据切片
Falsification 是什么？	什么结果会推翻这个 claim

例如：

Claim: S1 token path hash has enough capacity for WMT14 word echo.
Evidence: solo=41311/41429, BLEU-4=99.99.
Falsification: same seed/slice 下 solo rate < 95%.

再例如：

Claim: token-only path encodes contextual semantics.
Evidence: currently failed.
Falsification: same-token polysemy real labels do not beat shuffled labels.

本专题的核心问题

SPR 现在被拆成三个问题：

路径作为 hash 是否可靠？
路径能否被上下文条件化？
路径能否服务结构生成？

第一问已经有较强证据。第二问当前失败。第三问属于 S2，需要单独看 Fold Stack 证据链。

这就是本专题后续文章的主线。

License: GPLv3

问题定义：为什么要研究路径路由#

SPR 想替代什么#

SPR 不应该被误解成什么#

ARA 方式怎么约束 SPR#

本专题的核心问题#

问题定义：为什么要研究路径路由

SPR 想替代什么

SPR 不应该被误解成什么

ARA 方式怎么约束 SPR

本专题的核心问题