[WATERMELON-001] 西瓜书学习专题——从一条公式开始
西瓜书学习专题
从一条公式出发,推导、实现、验证。不做"实验表明",做"因为……所以……"。
为什么开这个专题
WMT 系列(003-009)跑了 30+ 组实验,从 RNN 到 Transformer,从 sin 到 K_lang。每走一步都在想一个问题:这个结论是实验巧合,还是数学必然?
西瓜书(周志华《机器学习》)正好提供了这种"从定理出发"的思维训练。每一章从假设空间、损失函数、优化方法三条线推到底——不依赖实验,依赖推演。
但这个训练不该停在纸面上。每条定理都可以写成代码,跑出实验数据来验证推演是否正确。
每一章三件套:
- 数学推演——读出定理为什么成立
- 代码实现——用 PyTorch 跑实验复现
- 心得 + 偏差——推演 vs 实验的差异,为什么有差异
路线图
[ML-002] 到 [ML-015] 对应西瓜书第 1 章到第 16 章。每篇独立成文,含理论推导的可复现代码。
May the Code be with us.
License: GPLv3
本文《ML》系列采用 GNU 通用公共许可证第三版 (GNU General Public License v3.0) 协议进行开源发布与分发。
-
[WATERMELON-002] 从对称开始——回归与分类是同一个问题
回归和分类在假设空间层面完全对称——同样的线性基底,不同的输出层。从 wx+b 出发,统一广义线性模型框架。 -
[WATERMELON-003] softmax——从离散标签到连续梯度
分类标签是离散的,梯度在离散点上不存在。softmax 把离散选择转化为连续概率分布,让梯度得以流过——这是分类问题能被优化的数学前提。 -
[WATERMELON-004] 离散概率空间 vs 线性空间——黑白球实验
10 次放回取样,用黑白球和黑白灰球实验,直观看到概率空间是三角形(不是线性的),而 softmax 把它变成了自由实数的线性空间。 -
[WATERMELON-005] 不止 softmax——概率单纯形的多种解放路径
softmax 不是概率单纯形到实数空间的唯一映射。ALR、CLR、ILR 三族 log-ratio 变换各有何几何性质?它们的梯度行为有何不同? -
[WATERMELON-006] 概率向量的频谱——FFT 作为特征表示
把三色球的概率向量做傅里叶变换,频率成分为何恰好编码了"分布不均匀度"?这不是巧合,是特征函数理论的一个特例。附带 FFT vs Attention 的启发式类比。