C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  一级军士长

注册:2010-4-284
发表于 2024-10-23 19:02:26 |显示全部楼层

昨日,由多位前 OpenAI 员工建立的 AI 初创企业 Anthropic 对外推出了一项引人注目的新功能,名为“计算机使用”。这项功能让大模型理解一切桌面应用程序并与之交互,包括模拟按键、点击按钮、鼠标手势和输入文本等,在计算机操作能力上已经与人类基本相当。

换句话说,Anthropic 不是为单个任务开发定制工具,而是教授模型基本计算机技能,使其能够自然地使用与人们相同的日常App和工具。

升级后的 Claude 3.5 Sonnet 是第一个在公开测试版中提供“计算机使用”功能的模型,此番 Anthropic 对这套模型进行了全面改进,特别是在智能体编码与工具使用等任务场景下表现出色。AI 驱动图像初创企业 EverAI 的创始人 Pietro Schirano 发帖表示,Claude 3.5 Sonnet 是“世界上最好的编码模型,将它纳入日常工作流程,彻底改变了我的生活体验。”

与此同时,Anthropic 还发布了全新的 Claude 3.5 Haiku,成本和速度向最小体量系统看齐,但能够重现该企业最大体量系统的性能。据先容,Claude 3.5 Haiku 的价格将与 Claude 3 Haiku 保持一致,但在多项重要基准测试当中都有着超越更大体量 Claude 3 Opus 模型的性能表现,其中包括一项由模型完成客服任务的测试。

亚星游戏官网-yaxin222


Anthropic 方面表示,Claude 3.5 Haiku“在编码任务领域表现特别强劲”,同时也“非常适合支撑面向用户的产品、特定子智能体任务,以及根据大量数据(包括购买历史、定价或者库存记录等)生成个性化体验等。”

现在,开发者们可以通过 Anthropic 的 API、亚马逊 Bedrock 以及 谷歌 Cloud 的 Vertex AI 平台体验升级后的 Claude 3.5 Sonnet 。而 Claude 3.5 Haiku 将于本月晚些时候提供,最初作为纯文本模型,随后将提供图像输入。

当 Claude 学会用电脑

在 Anthropic 官方发布的视频中,该企业研究人员展示了新 Claude 模型如何通过计算机使用功能从不同来源处收集信息,进而填写表格、开发网站甚至是策划徒步旅行。

有网友表示为 OpenAI 捏了把汗。当然,这项新功能也有局限性。一篇关于该工具的开发博文就列举了一个测试失败的案例:它在实行编码任务的过程中半途放弃,转而开始“浏览黄石国家公园的照片”——开玩笑讲,这可能是 AI 机器人做过的最像人类的事情之一,甚至学会了拖延症。

在一项旨在测试 AI 机器人帮助完成机票操作任务(例如修改出行航班)的能力评估当中,新版 3.5 Sonnet 只成功完成了不到半数任务。而在另一项涉及申请退货等操作任务的测试中,3.5 Sonnet 的失败率同样接近三分之一。

对此,Anthropic 方面承认,升级之后的 3.5 Sonnet 在滚动和缩放等常见操作方面仍存在困难,它需要通过快速连续截屏来实现操作,而无法处理实时视频流,因此可能会错过短暂的通知或者其他变更。Anthropic 在博文中写道,“Claude 模型的'计算机使用'功能用起来仍然比较麻烦而且容易出错。大家鼓励开发人员从风险较低的任务开始进行探索。”

Anthropic 方面称,这项计算机使用功能仍处于实验阶段,他们正在对“计算机使用”功能进行测试,排查可能出现的问题,同时与开发人员合作改进功能以寻求积极的技术应用方式。目前,参与这项计算机使用功能试点的企业客户包括 Asana、Canva、Cognition、DoorDash、Replit 以及 The Browser Company。

据悉,App开发平台 Replit 已经使用全新 3.5 Sonnet 模型的早期版本来创建“自主验证器”,用以在应用程序开发过程中对项目进行评估。在另一边,Canva 企业则表示正在探索利用这套新模型支撑设计和编辑流程的可行方法。

会自我纠正并重试任务, 比MicroSoft UFO 更像人类?

计算机使用似乎正成为 AI 开发的下一个前沿领域,即 AI 模型不必通过定制工具进行交互,而是能够按照指示使用基本上任何App。

最近被AMAZON收购的 Adept 一直在训练模型浏览网站并实现App导航,Twin Labs 正使用现成模型(包括 OpenAI 的 GPT-4o)来自动实行桌面操作流程,消费电子初创企业 Rabbit 在开发一款能够实行在线购买影片票等操作的 Web 版智能体。有消息称,OpenAI 等人工智能厂商也一直在开发类似的工具,但目前尚未公开发布。

今年 2 月,MicroSoft基于 OpenAI 的 GPT-4V 图像识别模型,专为 Windows 操作系统交互设计的智能体框架 UFO(UI-Focused)更与其有“异曲同工”之妙。UFO 能够通过对图形用户界面(GUI)和 Windows 应用程序的控制信息进行观察和分析,在单个或跨多个应用程序内无缝导航和操作,满足用户的复杂任务请求。也就是说,有了 UFO,用户通过一句话就可以操作应用界面,比如删除 PPT 上的所有注释、设计 PPT 格式、总结会议纪要并发送邮件等。

那么,Anthropic 的方案与其他操控应用的 AI 智能体有何不同?

工作原理上,据 Anthropic 先容,其“计算机使用”功能虽然同样需观看和解读屏幕截图,但实现操作是通过训练 Claude 模型准确计算像素。具体来讲,当开发人员要求 Claude 使用计算机App并授予其必要的访问权限时,Claude 模型会查看用户界面中的屏幕截图,而后计算出需要垂直或者水平移动多少像素才能将光标移动至正确位置。如果没有这种能力,模型将很难对鼠标进行准确操作。

亚星游戏官网-yaxin222


而MicroSoft UFO 是通过应用程序选择代理 (AppAgent) 和动作选择代理 (ActAgent) 两个 Agent 来实现自动化工作。AppAgent 负责通过分析用户请求和桌面屏幕截图,选择合适的应用程序,并制定全局计划来完成任务。而 ActAgent 则负责观察当前应用程序窗口的截图,从可用控制中选取合适的控制并实行动作,最后由控制交互模块负责将 ActAgent 选择的动作转换为对应用程序的控制操作。

此外,Anthropic 方面宣称,尽管没有接受过明确训练,但升级之后的 Claude 3.5 Sonnet 还会在遇到障碍时自我纠正并重试任务,而且正向着实行包含数十甚至数百个步骤的复杂任务目标推进。并且,Anthropic 的“计算机使用”功能还涉及到模型推理,像如何以及何时实行特定操作以响应屏幕上内容等。

AI 操控电脑存在风险? Anthropic:注意数据隔离

自动化控制应用工具这条赛道已经掀起新一轮 AI 竞赛浪潮,如果这些工具按预期发展成熟,很可能在几年之后为厂商带来大量收入。Anthropic 方面也一直在向投资者传达这一信息,即其打造的 AI 工具能够以比人类更高效且更经济的方式处理大部分办公室工作。

不过,此类工具也引发了一些争论。首先是担忧“它们只是一种能让人们工作更轻松的工具”,还是“会像一颗炸弹那样让各行各业的人们失去生存空间”。另一方面,尽管 Claude 3.5 Sonnet 模型在性能方面仍有不少短板,但其是否已经具备了造成危害的基本能力?

最近一项研究发现,无法使用桌面应用程序的现有模型(如 OpenAI 的 GPT-4o)在面对越狱技术的“攻击”时,确实愿意参与到有害的“多步骤智能体操作”中来,如从暗网上的卖家手中订购假护照。研究人员表示,即使是那些受到过滤器和护栏机制保护的模型,越狱行为同样在实施有害操作方面具有很高的成功率。

可以想象,具有桌面访问权限的模型很可能会造成更大的破坏,如利用应用程序中的漏洞泄露个人信息(或者以纯文本形式存储下聊天记录)。而除了将App作为操作杠杆之外,模型的网络浏览与应用程序连接更可能向恶意越狱者敞开大门。

Anthropic 也并不否认新发布的 3.5 Sonnet 存在风险,但辩称,相较于潜在风险,该模型在受众中的实际使用方式明显利大于弊。该企业在博文中提到,“大家认为,让目前这套功能较为有限、相对更加安全的模型早点访问计算机可能更好。这意味着大家可以开始观察并学习这套比较初级的模型会引发哪些潜在问题,同时逐步为其建立起计算机使用功能与安全缓解措施。”

Anthropic 方面还表示,他们开发了分类器以“敦促”3.5 Sonnet 远离已知的高风险行为,例如在社交媒体上发帖、创建账户以及在政府网站上实行交互操作。作为一项安全预防措施,该企业将把“计算机使用”捕捉到的任何屏幕截图至少保留 30 天。但不会利用用户的屏幕截图和提示词训练新的 3.5 Sonnet 模型,同时阻止模型在训练期间访问网络。

此外,Anthropic 企业强调,“选择使用 Claude 操作计算机的用户也应当采取相应预防措施,从而尽量减少此类风险,包括将 Claude 与电脑上高度敏感的数据隔离开来。”

有网友这样评价道,“两年前的 Anthropic:大家需要阻止 AGI 摧毁世界。现在的 Anthropic:如果大家让 AI 自由使用电脑并训练它患有多动症会怎么样?”

参考链接:

https://www.inc.com/ben-sherry/anthropic-just-released-its-most-advanced-small-ai-model-yet/90992933

https://arstechnica.com/ai/2024/10/anthropic-publicly-releases-ai-tool-that-can-take-over-the-users-mouse-cursor/

https://www.anthropic.com/news/3-5-models-and-computer-use

https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/


来源:36kr

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-11-27 23:58 , Processed in 0.206232 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图