下一轮实验：从 proof 走向真实基线战

S1a 已经成立。S1b 的受控 proof 也已经跑通：

token_acc=0.429
context_acc=1.000
shuffled_acc=0.482

但这还不够。下一轮实验目标不是继续提高 Echo，也不是重复受控 proof，而是把 S1b 放进真实语料和强基线里。

最小模型

从一个小模型开始：

H_token = E[token]
H_ctx = mean(E[left_window + right_window])
H = normalize(H_token + A @ H_ctx)
path = route(H)

这里 A 是小矩阵，不是大模型。目标不是追求榜单分数，而是验证路径会不会随上下文变。

继续使用：

light
bank
charge

要求：

如果真实标签和打乱标签差不多，实验失败。

受控样本已经通过；下一步必须从语料中抽取真实上下文，避免上下文向量被人工 sense anchor 喂得过干净。

构造同样容量的 random hash：

same dim
same chunks
same depth
same leaf count

如果 SPR 和 random hash 差不多，说明路径结构没有语义贡献。

用一个简单上下文模型做基线：

bag of context words -> sense

这不是为了赢 SPR，而是为了防止 SPR 对一个简单任务说大话。

如果 BoW 轻松解决，SPR 至少要解释自己为什么更有价值：

如果局部窗口不够，就把 S2 的结构信号接进来：

token
local context
head/span/fold state
-> conditional path

这一步才可能让路径带上句法和语义角色。

每次实验必须输出：

seed
dataset slice
target words
token-only metric
context-route metric
random-hash metric
BoW or keyword metric
shuffled-label metric
claim decision

结果必须写回：

ara/s1-echo/evidence/README.md
ara/s1-echo/logic/claims.md

只有满足下面条件，S1b 才能从受控 supported 进入工程 supported：

context SPR > token-only route
context SPR > random hash
real labels > shuffled labels

如果还要升级成 verified，还需要跨数据切片和多 seed 稳定。

License: GPLv3