C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  三级军士长

注册:2015-11-141
发表于 2024-11-14 20:02:23 |显示全部楼层

今年 AI 圈的瓜真是一浪接一浪。

最近,关于 Scaling Laws 「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。

争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。

正当舆论愈演愈烈之际,OpenAI CEO Sam Altman 刚刚在 X 平台作出回应:
there is no wall 没有墙
亚星游戏官网-yaxin222


而在这场辩论的背景下,彭博社则披露了一条引人注目的消息。

OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户实行任务,如编写代码或预订旅行。

在此之前,Anthropic、MicroSoft、谷歌 也都被曝出正在布局类似的方向。

对于整个 AI 行业来说, AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时,创新往往会在其他维度突破。

亚星游戏官网-yaxin222


Scaling Laws 撞墙?下一步该怎么走

Scaling Laws 遭遇瓶颈的消息,最先源自外国媒体 The Information 上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是,尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%,但 Altman 表示,Orion 在智能和实行任务、回答问题的能力已经与 GPT-4 不相上下。

坏消息是,据上手体验的 OpenAI 员工评估,与 GPT-3 和 GPT-4 之间的巨大进步相比,Orion 提升幅度较小,比如在编程等任务上表现不佳,且运行成本较高。

一句话概括就是,Scaling Laws 撞墙了。

亚星游戏官网-yaxin222


要理解 Scaling Laws 效果不及预期所带来的影响,大家有必要给不太清楚的朋友简单先容一下 Scaling Laws 基本概念。

2020 年,OpenAI 在一篇论文中最早提出 Scaling Laws。

这一理论指出,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。

听着有些拗口,说人话就是, 大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

亚星游戏官网-yaxin222


OpenAI 的这项研究奠定了后续大模型发展的基础,不仅促成了 GPT 系列模型的成功,也为训练 ChatGPT 提供了优化模型设计与训练的关键引导原则。

只是,当大家现在还在畅想着 GPT-100 时,The Information 的爆料表明,仅仅增加模型规模已经不能保证性能的线性提升,且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有 OpenAI 一家。

彭博社援引知情人士的消息称,谷歌 旗下的 Gemini 2.0 同样未能达到预期目标,与此同时,Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。

在争分夺秒的 AI 行业,没有产品的新消息往往意味着最大的坏消息。

亚星游戏官网-yaxin222


需要明确的是,这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结,更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei 曾透露,随着模型变得越来越大,训练成本呈现爆炸式增长,其目前正在开发的 AI 模型的训练成本就高达 10 亿美金。

Amodei 还指出,未来三年内,AI 的训练成本还将飙升到 100 亿美金甚至 1000 亿美金。

以 GPT 系列为例,仅 GPT-3 的单次训练成本就高达约 140 万美金, 单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。

亚星游戏官网-yaxin222


去年,加州大学河滨分校的研究显示,ChatGPT 每与用户交流 25-50 个问题,就得消耗 500 毫升的水。

预计到 2027 年,全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米,相当于 4-6 个丹麦或半个英国的年度用水总量。

从 GPT-2 到 GPT-3,再到 GPT-4,AI 所带来的体验提升是跨越式的。 正是基于这种显著的进步,各大企业才会不惜重金投入 AI 领域。

但当这条道路逐渐显露尽头,单纯追求模型规模的扩张已无法保证性能的显著提升,高昂的成本与递减的边际效益便成了不得不面对的现实。

现在,比起一味追求规模,在正确的方向上实现 Scaling 显得更加重要。

再见,GPT;你好,推理 「O」

墙倒众人推,连理论也是如此。

当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时,质疑的声浪也随之翻涌而来。

图灵奖得主、Meta AI 首席科学家 Yann Lecun,昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访,并附文称:

「我不想显得事后诸葛亮,但我的确提醒过你。

引用:「AI 实验室 Safe Superintelligence(SSI)和 OpenAI 的联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)最近向路透社表示, 通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。

亚星游戏官网-yaxin222


回顾这位 AI 巨头过去两年对现行大模型路线的评判,可谓是字字珠玑,句句见血。

例如,今天的 AI 比猫还笨,智力差太远;LLM 缺乏对物理世界的直接经验,只是操纵着文字和图像,却没有真正理解世界,强行走下去只会死路一条等等。

时间拨回两个月前,Yann Lecun 更是毫不客气地给当下主流路线判了死刑:

大型语言模型(LLMs)无法回答其训练数据中未包含的问题,

它们无法解决未经训练的难题,

它们无法在缺乏大量人类帮助的情况下学习新技能或常识,

它们无法创造新的事物。目前,大型语言模型只是人工智能技术的一部分。单纯地扩大这些模型的规模,并不能使它们具备上述能力。

在一众 AI 末日论中, 他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈。

亚星游戏官网-yaxin222


同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。

5 月份在接受媒体采访时,这位华人科学家曾悲观地表示,Scaling Laws 也许是对的,但不会是全部。在他看来,Scaling Laws 的本质是以指数级的数据增长,来换取「几个点的收益」。

最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 拿不到。Scaling law 发展到最后,可能每个人都站在一个「数据孤岛」上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。专家学会和 AI 融合,把自己变得非常强,AI 也代替不了他。

亚星游戏官网-yaxin222


不过,形势或许还没有到如此悲观的境地。

客观而言,Ilya 在接受路透社的采访时,虽然承认了 Scaling Laws 带来的进展已趋于停滞,但并未宣告其终结。

「2010 年代是追求规模化的时代,而现在大家再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。在当下,选择正确的事物进行规模化比以往任何时候都更为关键。」

并且,Ilya 还表示 SSI 正在秘密探索一种新的方法来扩展预训练过程。

Dario Amodei 最近在一档播客中也谈及此事。

他预测,在人类水平以下,模型并不存在绝对的天花板。既然模型尚未达到人类水平,就还不能断言 Scaling Laws 已经失效,只是确实出现了增长放缓的现象。

亚星游戏官网-yaxin222


自古,山不转水转,水不转人转。

上个月,OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示:

事实证明,在一局扑克中,让一个机器人思考 20 秒钟,得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。

而对于 Yann lecun 昨天的事后诸葛亮言论,他这样回应:

现在,大家处于一个这样的世界,正如我之前所说,进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。曾有许多人合理地担心,随着预训练所需的成本和数据量变得如此庞大,大家会看到 AI 进展的回报递减。但我认为,从 o1 中得到的一个真正重要的启示是,这道墙并不存在,大家实际上可以进一步推动这个进程。因为现在,大家可以扩展推理计算,而且推理计算还有巨大的扩展空间。

以 Noam Brown 为代表的研究者坚信推理/测试时计算(test-time compute),极有可能成为提升模型性能的另一个灵丹妙药。

说到这里,就不得不提到大家熟悉的 OpenAI o1 模型。

与人类的推理方式颇为相似,o1 模型能够通过多步推理的方式「思考」问题,它强调在推理阶段赋予模型更充裕的「思考时间」。

其核心秘密是,在像 GPT-4 这样的基础模型上进行的额外训练。

例如,模型可以通过实时生成和评估多个可能的答案,而不是马上选择单一答案,最终选择最佳的前进路径。

这样就能够将更多的计算资源集中在复杂任务上,比如数知识题、编程难题,或者那些需要人类般推理和决策的复杂操作。

亚星游戏官网-yaxin222


谷歌 最近也在效仿这条路线。

The Information 报道称,最近几周,DeepMind 在其 Gemini 部门内组建了一个团队,由 Jack Rae 和 Noam Shazeer 领导,旨在开发类似的能力。

与此同时,不甘落后的 谷歌 正在尝试新的技术路径,包括调整「超参数」,即决定模型如何处理信息的变量。

比如它在训练数据中的不同概念或模式之间建立联系的速度,以查看哪些变量会带来最佳结果。

插个题外话,GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。

而针对这个问题,谷歌 研究人员原本寄希翼于使用 AI 合成数据,并将音频和视频纳入 Gemini 的训练数据,以实现显著改进,但这些尝试似乎收效甚微。

知情人士还透露,OpenAI 和其他开发者也使用合成数据。不过,他们也发现,合成数据对 AI 模型提升的效果十分有限。

你好,贾维斯

再见,GPT,你好,推理 「o」。

在前不久举行的 Reddit AMA 活动上, 一位网友向 Altman 提问,是否会推出「GPT-5」,以及推理模型 o1 的完整版。

当时,Altman 回答道:「大家正在优先推出 o1 及其后续版本」,并补充说,有限的计算资源使得同时推出多个产品变得困难。

他还特别强调,下一代模型未必会延续「GPT」的命名方式。

亚星游戏官网-yaxin222


现在看来,Altman 急于与 GPT 命名体系划清界限,转而推出以「o」命名的推理模型,其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。

最近,Altman 在接受 YC 总裁 Garry Tan 的采访时,也再次谈到了 AGI 五级理论:

L1:聊天机器人具有对话能力的 AI,能够与用户进行流畅的对话,提供信息、解答问题、辅助创作等,比如聊天机器人。

L2:推理者像人类一样能够解决问题的 AI,能够解决类似于人类博士水平的复问题,展现出强大的推理和问题解决能力,比如 OpenAI o1。

L3:智能体不仅能思考,还可以采取行动的 AI 系统,能够实行全自动化业务。

L4:创新者能够协助发明创造的 AI,具有创新的能力,可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。

L5:组织者可以完成组织工作的 AI,能够自动掌控整个组织跨业务流程的规划、实行、反馈、迭代、资源分配、管理等,基本上已经与人类差不多。

所以大家看到,与 谷歌 以及 Anthropic 一样,OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。

今天凌晨,彭博社曝出,OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent,能够使用计算机代替用户实行任务,如编写代码或预订旅行。

在周三的一次员工会议上,OpenAI 领导层宣布计划在一月发布该工具的研究预览版,并通过企业的应用程序接口(API)向开发者开放。

在此之前,Anthropic 也推出了类似的 Agent,够实时处理用户计算机任务并代为实行操作。 与此同时,MicroSoft近期推出了一套面向员工的 Agent 工具,用于发送邮件和管理记录。

亚星游戏官网-yaxin222


而 谷歌 也正在筹备推出自己的 AI Agent。

报道还透露,OpenAI 正在进行多个与 Agent 相关的研究项目。其中,最接近完成的是一款能够在网页浏览器中实行任务的通用工具。

这些 Agent 预计将能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。

比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。

现在大家可以大胆预测:每个人都将拥有自己的 AI Agent。

当然,人类的终极目标是,大家更希翼有一天能够对着眼前的 AI 说出那句影片的经典对白:

你好,贾维斯


来源:36kr

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-11-26 13:23 , Processed in 0.294912 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图