该企业举了个例子:如果用户是一名开发者,使用的App有好几个,同时也已经给予了 Claude 适当的权限,那么 Claude 就可以查看用户能看到的屏幕,然后统计其所要移动的垂直和水平像素的数量,从而点击到正确位置。因此,准确统计像素数量的能力对 Claude 而言至关重要。没有这项技能,模型就难以发出鼠标指令 —— 类似于模型难以解决「banana 中有多少个 A?」 这样的问题。
Anthropic 表示,在训练 Claude 使用计算机方面,仅使用少量简单App(比如一个计算器和一个文本编辑器)进行的训练就让 Claude 可以泛化这种能力。这一点让开发团队自己都深感惊讶。至于为何使用这样的简单App,该团队表示:「出于安全原因,大家并不允许模型在训练时访问互联网。」
再结合 Claude 的其它能力,这种训练赋予了它非凡的能力,可以将用户的文本提示词转化为一系列逻辑步骤,然后在计算机上采取行动。开发团队观察到,如果遇阻,该模型甚至还能自我纠错并重试任务。
他们表示:「虽然大家在取得初步突破后很快就取得了后续进展,但达到这一目标的过程经历了大量反复试验。」该企业的一些研究者指出,让 Claude 具备使用计算机的能力接近他们刚开始从事该领域时所描绘的 AI 研究的「理想化」过程:不断迭代和反复回到绘图板,直到取得进展。
终于,研究获得了回报。目前,Claude 可以说是当之无愧的 SOTA 模型,其使用计算机的方式与人类相同 —— 即查看屏幕再采取行动。在 OSWorld 这项测试模型使用计算机的能力的评估基准上,Claude 当前的准确度为 14.9%,虽然远远不及人类水平(通常为 70-75%),但却远高于在此基准上排名第二的 AI 模型(7.8%)。当给予更多的步骤来完成任务时,Claude 得分为 22.0%。
Anthropic 通过评估计算机的使用是否会增加其《负责任扩展政策》中列出的前沿威胁(frontier threats)的风险来证实这一点。更新后的 Claude 3.5 Sonnet,包括其新的计算机使用技能,仍处于 AI Safety Level 2,也就是说,它不需要比 Anthropic 目前采取的安全措施更高标准的安全措施。
未来的模型可能会带来灾难性的风险,计算机的使用可能会加剧这些风险,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 认为现在引入计算机使用可能会更好,而模型仍然只需要 AI Safety Level 2 的保障。这意味着可以在风险过高之前开始解决任何安全问题。
因此,Anthropic 的信任与安全团队对计算机使用模型进行了广泛的分析,以识别潜在的漏洞。他们发现的一个问题是「提示词注入」—— 一种网络攻击,会输入恶意指令到人工智能模型,导致其要么覆盖先前的指令,要么实行偏离用户原始意图的意外操作。由于 Claude 可以解读连接到互联网的计算机的屏幕截图,因此它可能会暴露于包含提示词注入攻击的内容。
默认情况下,Anthropic 不会使用用户提交的数据(包括 Claude 收到的任何屏幕截图)来训练其生成式 AI 模型。
早期客户反馈表明,升级版的 Claude 3.5 Sonnet 代表了 AI 驱动编码的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它提供了更强的推理能力(在用例中高达 10%),并且没有增加延迟,这使其成为驱动多步骤App开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与前一版本相比,它在编码、规划和问题解决方面经历了显著的改进。The Browser Company 在用于自动化基于 Web 的工作流程时,注意到 Claude 3.5 Sonnet 的表现超过了他们之前测试过的每一个模型。
Claude 3.5 Haiku:SOTA 技术与性价比和速度的结合
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。与 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每项技能上都有改进,并且在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了使用公开可用的 SOTA 模型的许多智能体 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。