下一轮实验:从 proof 走向真实基线战

S1a 已经成立。S1b 的受控 proof 也已经跑通:

token_acc=0.429
context_acc=1.000
shuffled_acc=0.482

但这还不够。下一轮实验目标不是继续提高 Echo,也不是重复受控 proof,而是把 S1b 放进真实语料和强基线里。

最小模型

从一个小模型开始:

H_token = E[token]
H_ctx = mean(E[left_window + right_window])
H = normalize(H_token + A @ H_ctx)
path = route(H)

这里 A 是小矩阵,不是大模型。目标不是追求榜单分数,而是验证路径会不会随上下文变。

第一关:真实语料多义词

继续使用:

light
bank
charge

要求:

指标 通过条件
real-label accuracy 高于 token-only
shuffled-label accuracy 明显下降
random hash 低于 context SPR
keyword / BoW baseline 作为 sanity check

如果真实标签和打乱标签差不多,实验失败。

受控样本已经通过;下一步必须从语料中抽取真实上下文,避免上下文向量被人工 sense anchor 喂得过干净。

第二关:随机哈希

构造同样容量的 random hash:

same dim
same chunks
same depth
same leaf count

如果 SPR 和 random hash 差不多,说明路径结构没有语义贡献。

第三关:BoW 小模型

用一个简单上下文模型做基线:

bag of context words -> sense

这不是为了赢 SPR,而是为了防止 SPR 对一个简单任务说大话。

如果 BoW 轻松解决,SPR 至少要解释自己为什么更有价值:

  • 更可组合?
  • 更适合结构生成?
  • 更能接 fold state?

第四关:接 S2 fold state

如果局部窗口不够,就把 S2 的结构信号接进来:

token
local context
head/span/fold state
-> conditional path

这一步才可能让路径带上句法和语义角色。

输出要求

每次实验必须输出:

seed
dataset slice
target words
token-only metric
context-route metric
random-hash metric
BoW or keyword metric
shuffled-label metric
claim decision

结果必须写回:

ara/s1-echo/evidence/README.md
ara/s1-echo/logic/claims.md

通过标准

只有满足下面条件,S1b 才能从受控 supported 进入工程 supported:

context SPR > token-only route
context SPR > random hash
real labels > shuffled labels

如果还要升级成 verified,还需要跨数据切片和多 seed 稳定。

License: GPLv3