纪律战胜魔法的一周

我本周发布了六篇文章。一篇关于 PostgreSQL,另一篇关于人工智能代理的,一篇关于上下文管理的教程,一篇自动化的教程,一篇调试案例分析,最后一篇是关于为评估 MVP(最小可行性产品)设计对抗性建议的。 这些并非有计划发布,而是每一篇都从一篇论文、一场演讲,或是一个某种程度上让我感到有趣的项目衍生出来的。可当我将它们汇聚到一起时,却发现了一个自己在写的时候没有注意到的“共同主线”。 这六篇文章说的是一回事。 不经意间发现的模式 最开始是在看 Bohan Zhang 关于 OpenAI 如何扩展 PostgreSQL 的文章得出的结论。这篇文的结尾非常震撼——8 亿用户,只用一个 primary,没有分片。PgBouncer(发布于 2007 年)。只读副本(90 年代的概念)。这世上最无趣的技术,却支撑了历史上应用最广泛的一个服务,至今依旧“仍在很好地运行”。 接着是 Michael Bolin 解析 coding agents(代码代理)构造的文章。不管是 Codex CLI,还是 Claude Code,剖开内部,你会发现它们其实是一个 带 LLM 的 while 循环。没有知识图谱,没有符号规划。有的只是一个循环、一些工具,还有模型决定该停止的时间点。它的“魔法”其实就是一个 while True。 之后是 OpenAI 的关于 上下文工程(Context Engineering) 的 Cookbook 文章。事实是,模型看到的内容比模型本身更重要。而这些技术并不新鲜:启动时注入上下文(相当于一个 README 文档),剪切历史记录(类似循环缓冲区),压缩旧的内容(通过总结)。这些方法早在 2000 年代的聊天系统中就已出现。 然后是那个 自动化教程,更是对此的有力印证:OpenAI 的 Codex Automations 是 cron + curl + 一个 LLM。完全字面意义上就是这样。Unix 系统中最老套的调度器接口,调用当今世界上最前沿的模型。这基础设施已经存在了 40 年,而这“脑袋”才开发了两年。 接着还有两个非基础设施主题的帖子。那个 Jane Street 的谜题 中,一个神经网络有 2500 层,但结果证明它只是一个 MD5。这解法靠的是传统的调试思维:观察数据形式、逐步缩小范围、叠加约束条件,直到剩下唯一可能的答案。工具可能是新的(SAT 解算器,ChatGPT),方法却是老的(有条不紊地假设排除法)。 最后一篇是关于 用对抗性建议评估 MVP 的文章:用 LLM 模拟 5 个专家去评估创意的可行性,这听起来很高科技,直到你发现它其实就是一种 战争推演方法。从 50 年代开始军队就在用了,产品团队也称之为 预死因分析(pre-mortems)。创新之处无非在于,现在只用 2 美元在云端即可串联这些分析,而用不到雇佣 5 万美元的顾问了。 ...

2026年3月11日 · Fernando

一个拥有2500层但实为MD5的神经网络:从中学到的调试经验

几周前,世界上最顶尖的量化交易公司之一 Jane Street 发布了一个关于 解释性机制 的谜题。他们手工设计了一个拥有大约2500层线性结构、使用整数权重的神经网络,并以一个简单的问题把它交给了公众:这个网络到底在计算什么功能? 答案是:MD5。一个诞生于1992年的密码哈希算法,完全由矩阵运算和ReLU函数以神经网络的形式实现。 问题的精髓并不在答案,而是在最终赢家破解谜题时的过程。本质上,这个过程是一份调试复杂系统的教科书,它的应用远超机器学习领域。 实验背景 这个谜题并非一个典型的“黑盒”问题。参赛者可以获得模型的完整规范:所有的权重矩阵、偏置以及网络架构都公开了。不需要猜测模型的结构,而是需要理解模型 具体在做什么。 网络接受一个文本字符串作为输入,并返回0或1。官方给的例子是:“vegetable dog” 的输出是0。 拥有大约2500层线性结构、约200万个节点、却没有任何文档,这个问题的核心是:输入和输出之间到底是什么关系? 解题路径:一个调试案例分析 最终赢家 Alex 的解题过程展现了资深工程师常用的调试逻辑。过程中的工具可能因领域不同而有所变化,但思维方式无疑是通用的。 阶段1:观察,而不是立刻动手 Alex 做的第一件事是可视化权重矩阵。他没有直接运行模型,也没有尝试训练它。他只是看了数据。 他的发现是:所有权重都是整数。没有小数,没有浮点数,而是清一色的整数。 这显然是一个重要的信号。使用梯度下降训练的神经网络通常会产生许多小数权重,而整数权重表明这是一个用特定目标手工设计的网络。这不是一个“学习”的模型,而是一个伪装成神经网络的程序。 这告诉我们调试中的第一个关键原则:在解释数据内容之前先观察数据的形状。比如,一个以每100毫秒精确间隔打出的时间戳日志肯定不是来自实际流量;一个JSON对象里的每个字段都精确包含3个元素,也不可能来自生产环境。数据的形状揭示了它的来源。 阶段2:缩小问题规模 Alex 尝试将神经网络转化为一个可满足性(SAT)问题。基本思路是:如果每个神经元都可以看作一个逻辑约束,或许一个SAT求解器能找到让网络输出为1的输入。 他的缩减过程是循序渐进的: 移除了80%的“恒等变换”神经元 合并了只有一个输入且权重为1的节点 压缩了具有相同输入向量的节点 通过这一系列优化,网络从200万个节点缩减到7.5万个节点,最终转化为20万个SAT变量。 但依然没解出来。问题的计算复杂度仍然过高,无法用暴力法解决。 这个阶段带来的重要教训是:正确地简化问题后仍无法解决,这本身也是重要的信息,而不是失败。如果在消除所有“附带复杂度”之后,问题仍然困难,那说明问题的难点是固有的。这一点揭示了它的本质,而在本例中,它的本质是这个函数可能不可逆——我们无法通过输出推断出输入。 阶段3:识别模式 Alex 注意到这个网络中存在一个显著的模式:有32个计算模块周期性地重复出现。32轮完全相同的结构,加上不可逆的性质。 于是他向 ChatGPT 提问:“有哪些密码算法使用32轮计算?” 答案是——MD5。 这是“灵光一闪”的瞬间。但注意,它并不是无来由的突发奇想,而是三个前期资料(整数权重 → 手工设计、不可逆 → 加密算法、32轮 → 特定密码协议)的合并推理,最终形成了一个可验证的假设。 这种模式——通过不断加入约束,直到可能性空间逐渐收敛,与资深工程师在生产环境中诊断问题的方法高度一致。资深工程师并不是提前知道答案,而是通过每一步观察逐步排除整个可能性类别,直到只剩下一种可能性为止。 阶段4:发现问题 接下来的步骤中,Alex 验证了自己的假设:他计算了几组输入的MD5值,并与网络输出进行对比。结果显示,网络输出与MD5哈希值完全一致,当输入长度不超过32字符时。 但是,当输入长度超过32字符时,网络的计算结果就出现了偏差。 这是因为网络中存在一个bug。设计者在处理输入长度编码时出现了错误——在前7层中发生了一个溢出错误,使得网络在处理长输入时与标准MD5的输出结果不同。 Alex 一层一层地追踪错误,直至找到确切的偏差点。 这是一个绝佳的案例:在边界条件下验证假设。如果你的心理模型认为“这个神经网络在计算MD5”,那么仅仅在理想情况下(短输入)验证它是不够的。必须在极端条件下(长输入、空输入、特殊字符)对其进行测试。而当它失败时,这些偏差往往正是定位问题的关键线索。 阶段5:成功破译 最终,确定这是一份具有已知bug的MD5函数后,Alex 提取出了倒数第二层中的目标哈希值偏置项。接着使用词典暴力破解法,找到了谜底——两个用空格分隔的英文单词。 这对调试的启示 Alex 的解题过程与机器学习本身关系不大,它本质上是一场关于调试的教科书式行动: 阶段 在谜题中的体现 在实际调试中的体现 观察形状 整数权重 → 手工设计 日志间隔均匀 → 合成数据 缩小问题规模 200万节点 → 7.5万节点 → SAT问题 完整堆栈轨迹 → 具体组件 累积约束 不可逆 + 32轮 → 加密算法 只在生产中失败 + 只发生在周一 → 定时任务 边界验证 短于32字符可行,长于32字符失败 → 溢出 ASCII正常,UTF-8失败 → 编码问题 利用错误找线索 溢出问题定位到具体层 堆栈追踪定位至具体行 结构完全一致,差异只是领域不同而已。 ...

2026年3月11日 · Fernando