← 返回目录

On Intelligence

Jeff Hawkins · 2026-03-25

On Intelligence · X光报告


NAPKIN | 一句话精华

旧范式的死穴:把智能当成输入→输出的映射,快照对快照,刺激配反应,时间轴是空的。

Hawkins的刀切在哪里:新皮层六层回路,顶层压着底层,逐帧向下押注——不是"识别当前的世界",是"预测下一毫秒的感觉输入"。

预测对了,信号沉默;预测错了,误差向上涌,回路重写。学习不是被动录入,是被现实打脸之后的自我修正。

时序+层级,这两个齿轮缺一个,memory-prediction framework就变成了另一个名词堆砌。

SKELETON | 骨架结构

因果链

2004年的靶子:经典AI(符号主义)+ 早期神经网络
  → 批判核心:图灵测试把智能定义为外部行为匹配
  → 后果:整个领域在优化"看起来像智能"而非"产生智能"
  → 【注:深度学习此时尚未爆发,不在Hawkins批判射程内】
  → Hawkins的转向:行为匹配是工程陷阱,智能必须从大脑机制入手
  → 解剖学发现:新皮层呈现惊人的均匀性(remarkable uniformity)
  → ——均匀不等于同一:初级感觉皮层与前额叶在细胞构成比例上有差异
  → ——Hawkins本人承认这一点,他的论点是算法层面的均匀,不是组织学意义上的处处相同
  → 推论:新皮层运行同一类算法,差异来自输入,不来自结构
  → 该算法是什么?→ 记忆-预测框架(memory-prediction framework)
  → 大脑不是刺激-反应机器,而是持续运行的预测引擎
  → 预测命中 → 信号被压缩,不上浮至意识
  → 预测失败 → 误差信号上传 → 模型更新

三大支柱

支柱一:记忆-预测框架

Hawkins的核心攻击点不是哲学命题,而是工程批判。

图灵测试的原罪:它把"智能"外包给观察者的判断,于是研究者开始训练机器模仿可观察到的行为——正确的答案、流畅的对话、赢得棋局。

这条路的终点是复杂的行为匹配器,不是智能。

大脑的核心操作是预测,不是反应。

Hawkins反复使用的例子:用手触摸咖啡杯。

你的手指还没接触杯子,新皮层已经预测了陶瓷的温度、杯壁的弧度、把手的位置。

触碰发生,感觉输入与预测比对——误差为零,信号不进入意识。

你"感知"到咖啡杯,但你感知到的大部分是预测输出,不是原始感觉数据。

意识是误差报告系统,不是感知系统本身。

支柱二:层级时间记忆(HTM)

"层级时间记忆"这个名字的三个词都有具体所指,不能随意降格为比喻。

层级:新皮层六层结构形成处理层级。

低层——快速、局部、具体(边缘、音素、压力变化)。

高层——缓慢、跨时间、抽象(物体恒常性、语义、意图)。

信息向上流动时被压缩成不变性表征(invariant representations):旋律是不变性表征,它不依赖于C调还是G调演奏,不依赖于快板还是慢板。

时间:HTM的计算核心是序列记忆(sequence memory)。

新皮层记忆的不是孤立状态,而是状态的时间序列——A之后是B,B之后是C。

这是"预测"得以成立的基础:系统不是在识别当前输入,而是在当前输入的语境下召回下一个预期输入。

Hawkins用字母表歌举例:听到"L-M-N",你能预测下一个是"O"——但如果从"N"开始单独听,预测就断了。序列记忆是有方向、有语境依赖的,不是简单的联想。

记忆:存储介质是稀疏分布式表征(Sparse Distributed Representations,SDR)。

每个概念不对应单一神经元,而是由大规模神经元集群中少数激活单元的特定模式编码。

稀疏性带来两个关键特性:容量极大,且相似输入产生高度重叠的SDR,支持泛化。

——如果只写"层级"和"不变性"而跳过SDR和序列记忆,等于只画了HTM的外轮廓,把计算机制整个抠掉了。

支柱三:类比与创造力的机制

以下前半部分是Hawkins的论述,后半部分是本文推演,两者需要显式区分。

Hawkins的原始论点

创造力的基础是高层不变性表征在新情境中的激活。

当你在两个表面上毫无关联的领域发现结构相似性,那是因为高层皮层用同一个抽象模式匹配了两个具体情境。

类比不是修辞,是大脑的基本操作。

这个机制不依赖"灵感",依赖的是积累下来的、足够抽象的层级模型。

本文推演(非Hawkins原文)

若此框架成立,则所谓"天才"的差异,或许不只是表征数量的差异,更是预测模型的结构复杂度与跨层级连接的灵活性——能否用极简的高层模式覆盖极大范围的低层变体。

但这是延伸推论。Hawkins本人从未将智能差异简化为表征的数量统计。

他也明确承认:记忆-预测框架解释了新皮层层级处理的机制,但它不是智能的完备理论——意识的主观性问题、情感系统的角色,都超出了这本书的边界。

DISSECTION | 解剖洞见

洞见一:感知是预测,感官是校正信号

Hawkins的核心命题:皮层的工作方向是由上至下的。感官输入不是感知的原料,而是对预测的检验。误差才被上传;匹配则被静默吸收。

这不是哲学隐喻。这是对皮层柱功能的具体神经科学主张。

但此处必须与贝叶斯脑假说(Bayesian Brain Hypothesis)划清界限。两者都声称大脑是预测机器,但语言不同。贝叶斯框架的描述单元是概率分布与置信度更新,它不对神经实现作承诺——数学成立即可。Hawkins的层级时序记忆(HTM)则直接绑定了生物基底:皮层柱,层级序列,时序存储。前者是数学上的灵活,后者是生物学上的可伪证。

Hawkins选择了更窄的那条路,因此也是更危险的那条路。这是他的赌注,不是他的优势。


洞见二:注意力是预测误差的传感器——此处止步

概念必须被拆开。

Hawkins讨论的是注意力(attention)与觉知(awareness)。当预测误差超过阈值,信号被路由至更高层皮层,触发定向注意。开车的例子在这个框架内是准确的:熟悉路段产生极少误差,注意力资源被释放;突然出现的障碍物制造误差峰值,注意力被强制征调。这是功能性描述,不是玄学。

把这个机制升格为"意识的本质",是Hawkins本人没有迈出的跳跃,他也没有资格迈——意识的硬问题(hard problem of consciousness)根本不在HTM的射程内。HTM是功能架构,不是现象学理论。混淆二者是科普写作的常见失职。

以下是我的外推,必须标注清楚:若注意力的分配完全由预测误差驱动,则一个人在某个领域中"感到投入"的结构条件,是其认知模型在该领域持续遭遇更新压力。不是因为意义,而是因为误差密度足够高。这是从功能机制到主观体验的推演,Hawkins的框架给了它一个衣架,但原书止步于此。


洞见三:不变性表征的边界在感知层——越界需标注

Hawkins的原始论点有清晰的锚定:同一张脸从不同角度被识别为同一张脸;同一首曲调在不同音高下被识别为同一首曲调。高层皮层剥除了具体实例的可变量,存储的是跨实例的共同结构。这在感知层面有实验支撑。

书到这里为止。

以下是外推,不是Hawkins的原点:不变性表征的逻辑若向上延伸,可能触及跨域的结构同构。一个具体案例:热力学第二定律(系统可用微观状态数单调减少)与Shannon信息熵(信道中可用信息量的上界约束)在数学骨架上共享同一形式——两者都是对状态空间收缩的描述。一个在物理系统中建立过这层表征的人,有可能在看到通信系统的约束问题时,直接调用同一结构框架,而不需要重新推导。

这个案例是为了锚定"结构同构"的含义,而不是证明Hawkins是对的。Hawkins的框架能解释这种迁移能力的神经机制吗?或许。但他没有声称。这一步是读者自己的推演责任,不是作者赠予的结论。


洞见四:HTM与自由能原理——两张预测误差的地图,画的不是同一片地形

Hawkins与Friston(Karl Friston)的自由能原理(Free Energy Principle,FEP)共享同一个表面命题:大脑最小化预测误差。但架构假设完全不同,这个差异不能被轻易合并。

FEP是热力学框架。"自由能"是变分推断中对惊讶(surprise,即负对数概率)的上界估计。大脑通过主动推断(Active Inference)同时更新模型和采取行动——行动本身也是误差最小化的手段:你可以通过改变世界来让世界符合预测,而不只是更新预测。FEP的数学严格,但它对皮层柱、序列存储的具体神经实现几乎不作承诺。

HTM是工程框架。它绑定了具体神经结构:皮层柱、层级序列、时序预测。它的预测单元是序列——下一个状态是什么——而不是概率分布的期望值。这使得HTM在处理时间结构(语言、运动、音乐)时有天然的建模优势,但对行动的整合处理极其薄弱。Hawkins几乎没有认真回答:当预测框架与运动输出对接时,接口在哪里?

这里有一个真正的漏洞,不是修辞层面的:FEP框架预测,一个足够"智能"的系统会主动选择进入可预测的环境,以维持低自由能——它会让自己待在认知茧房里,而不是持续更新模型。这是主动推断的内生悖论。Hawkins的"惊讶驱动学习"完全没有处理这个动力学:当系统足够擅长预测,它会主动回避惊讶,学习因此停止。两个框架在这里走向了结构性的冲突,而不是互补。

"惊讶是唯一的老师"——这句话在FEP框架的镜子里,照出了一个被回避的问题。

SOUL | 灵魂拷问

🔥 机制先行,推论在后

Hawkins在《On Intelligence》中的核心主张是:新皮层是一台记忆-预测机器。它不被动接收信号——它主动向下发送预测,用高层皮质区域的储存模式"告诉"低层区域接下来应该看到什么。V1的神经元在大多数时候处理的不是原始输入,而是与预测的差值。匹配则静默,偏差才上传。

这是Hawkins明确论述的部分。

从这里往外推一步——这一步是我的推演,不是Hawkins的原文

如果皮质层级的每一层都在建模下一层的状态,那么最高层级在建模什么?它建模的是整个系统自身的运行状态。L6到L1的反馈连接构成闭合回路,高层区域持续生成对自身预测过程的预测。"我"有可能不是这个回路的发起者,而是这个回路的输出物——是皮质自我建模的副产品,而非其主体。

这个方向与Metzinger的自我模型理论(SMT)和Clark/Friston的主动推理框架高度相邻。Hawkins本人在书末对意识问题极为克制,他没有解决hard problem,也没有宣称自己解决了。

区别在于起点:Hawkins给了你一套皮质信号流的具体机制

其余所有关于"自我"的推论,都必须从这个机制出发,而不是从震惊感出发。

STRUCTURE MAP | 结构图

graph TD
    S(["感官输入\nRaw Sensory Stream"])

    L1["V1\n⏱ 时间序列:t₀ → t₁ → tₙ\n处理:边缘 / 朝向\n不变性粒度:像素级时序模式"]
    L2["V2 / V4\n⏱ 时间序列:t₀ → t₁ → tₙ\n处理:局部形状 / 曲率\n不变性粒度:局部形态"]
    L3["IT 皮层\n⏱ 时间序列:t₀ → t₁ → tₙ\n处理:物体恒常性\n不变性粒度:物体身份"]
    L4["联合皮层\n⏱ 时间序列:t₀ → t₁ → tₙ\n处理:概念 / 关系\n不变性粒度:语义范畴"]
    HC["→ 海马体\n新时序模式编码\n序列记忆更新入口"]

    M1{"V1\n预测比对"}
    M2{"V2/V4\n预测比对"}
    M3{"IT\n预测比对"}
    M4{"联合区\n预测比对"}

    C1(["◼ consumed\n信号止步 · 不再上传"])
    C2(["◼ consumed\n信号止步 · 不再上传"])
    C3(["◼ consumed\n信号止步 · 不再上传"])
    C4(["◼ consumed\n信号止步 · 不再上传"])

    S -->|"↑ 上行输入流(实线)"| L1
    L1 --> M1
    M1 -->|"失配:异常向上传播\n注意力资源重分配"| L2
    L2 --> M2
    M2 -->|"失配:异常向上传播"| L3
    L3 --> M3
    M3 -->|"失配:异常向上传播"| L4
    L4 --> M4
    M4 -->|"失配:无先验模型\n新序列进入编码"| HC

    M1 -->|"匹配"| C1
    M2 -->|"匹配"| C2
    M3 -->|"匹配"| C3
    M4 -->|"匹配"| C4

    HC -.->|"↓ 下行预测流(虚线)"| L4
    L4 -.->|"↓ 下行预测流"| L3
    L3 -.->|"↓ 下行预测流"| L2
    L2 -.->|"↓ 下行预测流"| L1

    style S fill:#1c2833,color:#fff
    style L1 fill:#154360,color:#fff
    style L2 fill:#1a5276,color:#fff
    style L3 fill:#1f618d,color:#fff
    style L4 fill:#2471a3,color:#fff
    style HC fill:#512e5f,color:#fff
    style M1 fill:#78281f,color:#fff
    style M2 fill:#78281f,color:#fff
    style M3 fill:#78281f,color:#fff
    style M4 fill:#78281f,color:#fff
    style C1 fill:#4d5656,color:#fff
    style C2 fill:#4d5656,color:#fff
    style C3 fill:#4d5656,color:#fff
    style C4 fill:#4d5656,color:#fff

实线,上行。

虚线,下行。

两条流同时运行。

缺少任何一条,都不是 Hawkins 的理论。

双向,不是单向。这是脊柱,不是细节。


每一层皮层柱执行同一个操作:

将上行输入,与来自上层的下行预测做比对。

匹配 → 信号被 consumed,止步,不再上传。

这不是比喻,不是"自动驾驶"。

这是信息流的实际截断:

已被当前模型解释的信号,不需要消耗更高层的计算资源。

失配 → 异常信号向上传播。

同步触发注意力资源重分配。

皮层不对已知事物做任何反应。

它只处理预测失败。


时间序列:不是标注装饰,是理论骨架。

每层的 ⏱ 对应 Hawkins 原书的核心论点:

皮层存储的不是静态模式,

而是模式在时间轴上展开的序列

V1 检测的是边缘在时间中的运动轨迹,不是边缘本身。

IT 皮层匹配的是物体穿越视野时的时序模板,不是物体快照。

联合皮层操作的是概念序列,不是概念。

传统卷积网络处理静态张量。

Hawkins 的大脑处理时间序列的预测残差。

两套完全不同的计算范式。

混淆两者,是根本性的误读。


海马体是入口,不是终点。

联合皮层的失配信号抵达海马体,新序列在此被编码。

随后经由下行预测流逐层反哺,修正各层的预测权重。

回路在这里闭合。

学习是这个闭合回路的直接输出,不是别的什么。


创造力的机制定位:

📄 跨层级激活:创造力的信息论描述

高层不变性表征(IT / 联合皮层)存储高度抽象的时序模板。

这些模板经由下行预测流向低层投射。

当上行输入来自陌生情境时,

高层模板与低层输入之间产生预测-失配级联

每一层的失配信号继续上传,

直到找到能够容纳当前序列的最高抽象层级。

这不是"联想",不是"灵感",不是跨域连接的诗意表述。

这是系统在无匹配先验的情况下,

强行将已有高层表征映射至新时序输入的过程。

Hawkins 未将此命名为创造力。

但它是记忆-预测框架在新颖刺激下的直接逻辑延伸。

能从框架内部推导出来的,才算真正理解了框架。

🐙

💬 评论