经验 2000 分贝 0 家园分 4000 在线时间: 0 小时 最后登录: 2007-10-29 帖子: 1003 精华: 0 注册时间: 2007-10-29 UID: 192143
注册:2007-10-29 11
发表于 2025-3-28 09:03:23
| 显示全部楼层
在智能时代,Sora、ChatGPT 4o等智能体的出现创造了一系列近乎神话的奇迹:高质量视频生成、教育改革支撑、图像理解与分析以及推动科技创新等。在此背景下,本文先容了当前AI发展的主流趋势及其面临的瓶颈,并提出“结构计算”这一新概念 ,旨在加深对人类智能特点和规律的研究,从而反哺AI发展,进一步推动技术进步。
暴力计算
暴力计算是一种依赖强大的计算能力和海量数据,通过反复尝试和穷举法来解决问题的技术手段。其核心特点是用大规模的算力和资源,结合优化的算法,在庞大的搜索空间内进行计算,以找到最佳解。这种方法并不依赖于对问题本质规律的深入理解,而是通过计算资源的堆积来弥补模型在逻辑推理或常识表达上的不足。
例如,在图像识别中,暴力计算会使用大量的数据训练深度学习模型,逐渐逼近高精度结果,而非模拟人类视觉的认知机制。在围棋AI领域,AlphaGo早期版本的策略也体现了一定的暴力计算特点,即通过对大量棋局的穷举计算找到最优解。
目前,AI发展的基本思路还是依赖算力、算法和数据,把暴力计算作为实现AI智能的主要手段。 有人把这种思维模式称为“暴力思维”。但是,这种以暴力计算为特征的AI有着发展上的明显局限性。
首先,目前AI仍处于初期,智能水平较低。 Sora等智能体需要明确的指令才能完成任务。在《管理视野》第36期的文章《超越Sora :从两只狗狗说起》中,我通过两条狗的比较分析指出,目前的生成式智能体,其智能水平充其量是条能够听懂人话、完成一定任务的“笨狗”。它们不能完整识别、理解人的意图,高效地实现人与智能体的对话。最近,Nature杂志刊登了一项研究,驳斥了大语言模型(LLM)具有类人推理能力的观点。研究中的“人类亲吻难题”让7个大模型全部“迷失”。根据实验结果,研究者认为,LLM更像是一种工具,而不是具有类人智能的存在。
其次,AI的发展目前受到算力的限制。 例如,斯图尔特·罗素教授在其2020年出版的《AI新生》一书中提到,判定一张地图是否可以仅用三种颜色着色,大约需要21000次运算①。这意味着,即使使用每秒实行1018条指令的超级计算机,也需要10257年的时间进行计算。而大家的宇宙存在时间仅约1010年。这就意味着,对于类似的问题,如果依靠暴力计算解决,很可能宇宙早已灭亡,结果却仍未得出。这显然是无法接受的。
最后是当前AI的效率问题。 就相关的材料看,超级计算机的功耗约是人类大脑的100万倍。OpenAI在训练GPT-4时使用的计算性能指标(FLOPS)约为2.15×1025,他们在约25000块A100 GPU上训练了90-100天。按每块A100 GPU每小时1美金计算,一次训练的成本约为6300万美金。由此可见,目前的AI效率仍然较低,需要投入大量资源。
对于AI发展的这些局限性,解决的途径通常有以下三种: 第一,发展芯片生产。按照摩尔定律,每18个月芯片性能翻倍,但据估计2025年以后芯片生产的发展速度将会减慢。第二,开发计算专用设备。如GOOGLE的张量处理单元(TPU),其运算速度是每秒1017,而能耗仅仅是普通计算机的1%。第三,实现量子计算。这些途径虽然能够解决部分AI的局限性,但作用有限。芯片和超级计算设备的开发存在物理上的极限。量子计算无疑是一个重要突破,但目前距离这一目标的实现仍有较长的路要走。
在这样的背景下,大家提出,通过研究人类智能的特点和规律,反哺AI,也许是一条更有效地推动当前AI持续发展的捷径。
结构计算
下面大家从“什么是结构计算”“结构的类型”和“结构计算的来源”三个方面来阐述大家的新概念:结构计算。
1. 什么是结构计算
为了说明人类个体智能,特别是加工外在信息能力的特点,大家先看两个例子。
第一个例子是心理学中的“鸡尾酒会效应”(cocktail party effect)。 这个效应指的是,在嘈杂的环境中,人们依然能够察觉到非常微弱的外部信息。比如,在鸡尾酒会上,即使声音很远,你仍可能听到有人提到你的名字。
关于鸡尾酒会效应,我也分享一个自己的经历。有一次,我在朋友圈晒了一张和妻子坐在山坡上看晚霞的照片。一位学生留言说:“照片里有我女儿。”我仔细看了半天,却没找到他女儿的身影,于是再次跟他确认。他坚持说:“肯定在,只要一个像素,我就能认出来。”后来,我终于发现在照片的一个小角落里,确实有他女儿的身影。
在人类的感知系统中,这种能力可以让大家在嘈杂背景下发现远低于知觉阈值的信息,几乎每一个人都曾经历过。而对于AI来说,即使实现了类似能力,也需要庞大的计算力和巨额的训练成本。然而,对人类来说,这却是再普通不过的事。
第二个例子是“视觉盲”(inattentional blindness)现象,即人类常见的“视而不见”现象。 有一个著名的心理学实验可以很好地说明这一点。实验是这样的:一群人在空地上传篮球,球在人群中不断传递。在此过程中,一个穿黑猩猩服装的人从他们中间走过。当传球结束后,实验者问参与者:“刚才有没有看到一个穿黑猩猩服装的人经过?”多数人都回答:“没看到。”这种“视而不见”的现象其实很常见。即使有人从你眼前走过,你可能“看见”了,却完全没有意识到。这就是所谓的“视觉盲”。
如果超级AI要模拟这种能力,需要进行多少次计算?理论上,超级AI可能通过训练获得类似的能力,但所需的训练量究竟会有多庞大?从鸡尾酒会效应和视觉盲现象中可以看出,即便是人类看似平常的能力,对AI来说也极为复杂且昂贵。人类处理外部信息的能力有两个显著特点:自动化和依赖过去经验。
自动化指的是人类在处理外部信息时,几乎可以在无意识状态下瞬间完成。这种能力无需复杂计算,就可以高效完成。依赖过去经验则体现在,人类的感知受到过往经验的影响。在鸡尾酒会效应中,个体的经验可以增强对特定信息的感知能力,比如能迅速识别自己的名字或熟悉的面孔。而在视觉盲现象中,个体的经验可以降低对非关注信息的感知,比如忽略传球过程中穿黑猩猩服装的人。
这种由过去经验对信息加工产生的影响,在心理学中被称为“自上而下的信息加工作用”(top-down processing)。它表明,人类的感知不仅是对当前刺激的直接反应,更是基于过往经验对信息进行筛选和处理的结果。
总结上面两个例子,大家把人类个体这种自动化的、依赖过去经验的信息加工方式称为“结构计算”。 为什么大家会提出“结构”的概念?因为大家认为,人类处理外部信息的能力来源于特定的结构机制。例如,在鸡尾酒会效应中,人类知觉系统通过长期训练,发展出对特定敏感信息的优先处理能力。这种能力可能与人类大脑皮层中神经元之间某种特殊的联结结构有关。
尽管目前尚无直接证据证明个体学习能够生成这种结构单元,但心理学研究早已表明,人类学习的过程实质上是神经元之间联结和结构重组的过程。知觉和语言的学习都可以引起大脑结构的变化。例如,一项实验显示,在学习普通话声调两周后,参与者原本未激活的两个脑区——左脑A42和右脑BA44——在训练后被激活。研究者认为,这表明声调学习导致了大脑皮层的结构重组。
2. 结构的类型
大家认为,结构计算所依赖的结构主要包括以下三种:
(1)生物组织
这是指人类个体在生物学意义上形成的感知觉和思维的系统结构。例如,人类的视觉感知依赖于视觉系统的特定结构。现实世界是三维的,人类可以瞬间判断出A点比B点更近。这种立体知觉的能力很大程度上依赖于视觉系统中的“视交叉”结构。视交叉是视觉神经系统中的一个关键结构。当来自左右眼球的视神经纤维到达视交叉处时,会发生特定的分流:鼻侧(内侧)半部的纤维交叉,而颞侧(外侧)半部的纤维则不交叉。交叉后的纤维延伸形成视束,使得每侧大脑的视束内同时包含来自同侧视神经的外侧纤维和对侧视神经的内侧纤维。这种特殊的结构使双眼在注视A点和B点时产生“视差”。基于这种视差,人类大脑能够轻松判断出A点比B点更近。这种基于结构的感知能力,是人类生物组织中结构计算的典型实例。
(2)大脑皮层中的神经元结构单元
例如,言语运动区(布洛卡区,broca area, BA)。布洛卡区的损伤会导致运动性失语症,这表明其结构对语言功能的重要性。
在人类对面孔信息加工的过程中,大脑有三个功能不同的视觉皮层区域:
①枕叶面孔区(occipital face area,OFA)。负责处理面孔的特征信息,如眼睛、鼻子和嘴巴的细节。
②梭状回面孔区(fusiform face area,FFA)。主要处理面孔的整体结构信息,用于识别面孔的整体布局。
③后颞上沟(posterior superior temporal sulcus,pSTS)。专门处理面部动作的动态特征,如注视方向和表情变化。
这些皮层区域各司其职,共同完成对面孔信息的复杂加工,体现了大脑神经元结构单元的精密性和高效性。
(3)脑皮层的功能结构
这是指前额叶的注意控制皮层、颞叶的视觉皮层和顶叶的本体觉加工皮层之间的功能连接。这种功能结构通过动态连接,协调不同区域的处理。大家的实验室曾做过相关实验:当被试的视觉信息与本体感信息发生冲突时,大脑中三个区域的功能连接会发生显著变化。前额区(负责控制功能)与视觉加工的颞叶区之间的连接会增强,而前额区与本体觉加工的顶叶区之间的连接会减弱。这种机制表现为双重作用:视觉信息加工得到加强,同时本体觉信息加工受到抑制,从而导致视觉信息优先处理的现象。
这一功能结构的动态调节,体现了大脑在冲突情况下对资源分配的灵活性和优先级判断的机制。
3. 结构计算的来源
大家提出了结构计算。那么,为什么人类会具有“结构计算”的能力呢?结构计算是怎么产生的呢?大家认为,正是人类的进化造就了人类结构计算的能力。进化的过程,就是人类个体结构计算能力的一种训练和强化过程。
按照进化论,现代人类是250万年前智人后代的延续。经过世世代代的进化,人类在处理外部信息方面得到了持续的训练和强化,逐渐形成了独特的结构和功能,与其他生物截然不同。这种独特的结构正是人类信息处理能力的基础。
通过漫长的自然选择,人类在大脑和感官系统上形成了高度复杂且优化的计算机制,使大家能够以自动、灵活的方式适应外部世界的各种信息 。这种结构不仅是人类感知能力的核心,也奠定了大家区别于其他物种的根本特征。
如前文所述,我的学生能够仅凭“一个像素”就识别出他的女儿,这种能力与人类对特殊信息易化加工的神经系统单元密切相关。同样,在视觉盲现象中,个体表面上对外在信息“视而不见”,但实际上仍能对某些信息做出反应,这也说明人类神经系统对特定信息具有优先加工的特性。
借助视交叉等视觉系统结构,人类能够轻松实现立体视知觉。这种能力源于人类进化中形成的视交叉等特异性信息加工单元。进一步来看,视觉信息优先加工的现象很可能是人类在直立行走后,在漫长的进化过程中,视觉功能不断发展和强化的结果。这种进化使人类在处理环境信息时更加高效,更加适应复杂的生存需求。
在人类250万年的进化过程中(甚至更早,如果从生命起源开始算起),大脑进行了无数次计算和训练。这种长期的训练与强化,逐步形成了人类特有的对外部信息的易化加工结构。正是这些结构,使人类拥有了其他物种无法比拟的自动化信息处理能力。位于纽约市的美国自然历史博物馆的古人类学家兼名誉馆长伊恩·塔特索尔 (Ian Tattersall) 提出,自人类与黑猩猩从共同祖先分化以来,人脑的体积在600万年中增长了近四倍。但是,现代人的大脑比10万年前的智人的大脑萎缩了13%左右。塔特索尔的发现与其他人的研究结果可以相互验证。人类大脑萎缩的原因,至今并没有一个统一的说法。
大家可以假设,经过数百万年的进化,人脑逐步发展出一种更高效的结构计算模式。 这种自动化的信息处理方式可能替代了早期以暴力计算为主的方式,导致对大脑容量的需求减少。在塔特索尔的理论中,早期人类可能依赖“暴力计算”处理信息,因此需要更大的脑容量来容纳庞大的神经网络。然而,随着更有效的信息处理结构的出现,大量脑细胞变得冗余,大脑的体积因此逐步减小。
进化赋予了人类独特的结构计算能力,这是一件极为美妙的事情。试想一下,为什么人类视网膜中的视锥细胞只有红、绿、蓝三种类型,而不是两种或四种?原因很简单:通过这三种视锥细胞的不同激活组合,人类就可以识别外界的各种颜色。如果只有两种视锥细胞,大家将无法感知某些颜色,导致色彩感知能力受限。而如果有四种视锥细胞,这种额外的类型则显得多余,因为三种已经足以应对复杂的色彩需求。这种精妙的设计充分体现了进化的高效与优化。进化造就的人类个体的结构是如此完美,使得有些人不相信这是进化,而是某位“大神”的天作。
进化还可以很好地说明人类结构计算的许多特点。 例如,决策是人类日常生活中最常见的行为之一,但人类决策的机制究竟是什么呢?诺贝尔奖得主卡尼曼(Daniel Kahneman)提出,人类在风险决策中采用的是“选项间/补偿性”的“效用比较”策略。他的预期理论认为,人类通过“加权求和”的方式对所有选项进行全面评估,这种机制更接近于“暴力计算”。然而,中科院心理所的李纾教授则提出了不同的观点。他认为人类的决策实际上是“维度间/非补偿性”的“属性比较”策略。根据他的齐当别理论,人类在做决策时只关注对自己影响最大的“主要属性”,而忽略次要因素。这两种策略被他形象地描述为“‘面面圆到’的预期理论 vs.‘ 一钩已足明天下’的齐当别理论”。大量实验结果支撑李纾教授的理论。从进化的角度来看,这种说明也更合理。在250多万年的进化中,人类在面对生存风险时,往往只需要关注最关键的因素,例如“如何生存下来”。这种对单一核心目标的优先处理机制,逐步形成了“一钩已足明天下”的结构计算特点,既高效又适应复杂环境的需求。这一特点也是人类得以延续的重要进化优势。
小结
大家并不反对暴力计算,但希翼探索另一种途径,来突破AI发展的瓶颈。结构计算是大家提出的一个新概念,用于描述人类智能的独特特点。
大家认为,结构计算以“结构”为核心,可以很好地说明人类在处理外界信息和解决问题时的特点。这种能力是人类在长期进化中逐步形成的。与暴力计算依赖算力来解决问题的思路不同,结构计算更注重高效利用信息结构,实现快速决策和问题解决。如何借鉴人类智能的结构计算特点,反哺AI发展,是大家当前努力的方向。这不仅有助于突破现有技术的限制,还可能为AI开辟一条更高效、更人性化的发展道路。MI·专栏
主要参考文献
Dentella V, Günther F, Murphy E, et al. Testing AI on Language Comprehension Tasks Reveals Insensitivity to Underlying Meaning[J]. Scientific Reports, 2024, 14(1):28083.
Haxby J V, Hoffman E A, Gobbini M I. The Distributed Human Neural System for Face Perception[J]. Trends in Cognitive Sciences, 2000, 4(6):223-233.
Wang Y, Sereno J A, Jongman A, et al. fMRI Evidence for Cortical Modification During Learning of Mandarin Lexical Tone[J]. Journal of Cognitive Neuroscience, 2003, 15(7):1019-1027.
李德毅. 论智能的困扰和释放[J]. 智能系统学报, 2024,19(1):249-257.
李纾. 决策心理:齐当别之道[M]. 上海:华东师范大学出版社,2016.
彭聃龄. 普通心理学[M]. 第四版.北京:北京师范大学出版社,2012.
Tencent网. GPT-4“终极大揭秘”[EB/OL]. https://news.qq.com/rain/a/20230711A05Z3Q00?utm_source=chatgpt.com,2023.
注释
*刘艳芳高级工程师(HUAWEI科技有限企业)、柴春雷教授(浙江大学)、钟建安教授(浙江大学)和李宏汀教授(浙江工业大学)都对本文提出了各种宝贵的意见,在此对他们表示衷心的感谢。
① 2023年,卢卡斯·梅耶(Lucas Meijer)提出了一种新的三着色算法,其时间复杂度为O(1.3217 n),比之前的算法有所改进;2024 年,河原林健一(Ken-ichi Kawarabayashi)等人进一步改进了三着色算法,提出了在多项式时间内使用更少颜色的方案。尽管这些进展在理论上缩短了计算时间,但对于大规模图的三着色问题,计算仍然非常耗时。因此,罗素教授在书中强调的计算挑战在实际应用中依然存在。
专栏葛列众 中国心理学会工程心理学专业委员会副主任委员
来源:36kr