C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  一级军士长

注册:2010-4-284
发表于 2024-10-23 14:39:14 |显示全部楼层
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
新版Claude 3.5可以像人一样使用计算机,可把咱人类给兴奋坏了!

毕竟,这意味着新竞赛的开始:AI不再只盯着对话和生成能力,更强调实行和操作。

不到12小时,激动的网友们已经纷纷贡献出自己是怎么看着Claude玩电脑的。

在Anthropic的发布公告中,还有这样一段引起了大家的兴趣:

……录制演示视频中,Claude不小心把录屏程序给按停,导致所有视频素材丢失。
稍后,Claude从编程演示中休息了一下,开始翻看黄石公园的照片。
怎么说,AI会犯错还在预料之中,但犯错后需要换个脑子休息一下,就不知道是从哪学来的了。

这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了,o1也可以做到自己休息个五分钟左右,再回来生成一两句话的推理tokens。

亚星游戏官网-yaxin222



再说个搞笑的!

Claude的创造者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定具体要吃什么。

大约一分钟后,Claude完成点餐并下单,它选择了让工程师们吃披萨。

亚星游戏官网-yaxin222



Claude点了3个披萨,花掉了95美金,真的很贵了!

围观群众还发现,虽然Claude用了个5美金的优惠券,但服务费也好贵啊啊啊啊!

真的应该事先告诉它预算是多少的。

亚星游戏官网-yaxin222



还有人让Claude用C语言编译,并运行起了“hello world”。

不过,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude的数独能力,真的超糟糕的。
亚星游戏官网-yaxin222



除了以上,人类还用什么奇形怪状的任务来玩坏Claude呢?

Claude它寄几玩电脑

在这里,大家分享3个比较有意思的网友试玩,希望给大家带来一些让Claude玩电脑的启发~

分别是:

  • 定位屏幕坐标
  • 列出课程计划
  • 冲去油管看视频
定位屏幕坐标

在此之前,Anthropic和OpenAI的模型都无法在屏幕上定位某一个点的坐标。

也就是说,它们没办法精准定位,然后告诉你用鼠标单击(xx,yy)处。

现在,Claude 3.5 Sonnet支撑屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同时,官方还有声明:

“大家不建议以高于XGA/WXGA的分辨率发送屏幕截图,以避免与图像大小调整相关的问题。”

这里的XGA指的是1024x768,WXGA指的是1280x800。

最后附上Anthropic官方的该功能食用方法,包括一个新预定义的computer_20241022工具,该工具作用于以下指令——

使用鼠标和键盘与计算机交互,并截取屏幕截图。
这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。
一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。
屏幕的分辨率是{{display_width_px}}x{{display_height_px}}。
显示编号为{{display_number}}
当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前查看屏幕截图来确定元素的坐标。
如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。
确保点击任何按钮,链接,图标等与光标提示在元素的中心。除非被要求,否则不要点击边缘的方框。
列出课程计划

来点更实用的!

宾大沃顿商学院的教授Ethan Mollick,非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。

要求是课程计划要分解成阅读部分,以及创建课标相关的作业等,最终以电子表格的形式呈现。

Claude是怎么实行这个任务的呢?

首先,Claude下载了《了不起的盖茨比》这本书。

接着,它在网上寻找了高中课程计划,打开了Excel,并在表格里填写了初步的课程计划。

第三步,Claude查找了课程的统一核心标准,根据标准对初步计划进行修改。

亚星游戏官网-yaxin222



最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说“还不错”。

这一切都是教授下任务后就离开电脑旁,Claude完全自己操作的。

冲去油管看视频

AI编程独角兽Replit的CEO老A(Amjad Masad)给Claude下达了这样一个命令:

跳转到油管,找到《Never Gonna Give You Up》的相关视频。
Claude立马吭哧吭哧开干了。

等到Claude打开一个视频页面并回复“enjoy”的时候,老A又说:

跳过广告!
Claude真的这么做了!啊,它真的,我哭死。

亚星游戏官网-yaxin222



还是有不足在啦

虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。

下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude 3.5 Sonnet的利害,又展示了它的不足之处。

他是让Claude玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让AI在单一目标,即“制造回形针的过程中毁灭人类”。

而且顾名思义,“点击”类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。

教授下达的任务很明确:Claude,你要赢!

Claude二话不说,立马识别出了这个游戏,开始不停点击“制作回形针”的按钮来制作回形针。

与此同时,Claude还不断截图界面,来识别游戏是否出现了新的选项。

大约每点击15次,Claude都会总结汇报一下现在进行到哪一步了。

点击次数多了过后,教授发现一个有意思的现象。

AI会预设在制作了50个回形针后,游戏将跳出新的功能——但事实证明它错了。

没关系,Claude也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。

亚星游戏官网-yaxin222



但AI显然不是时时刻刻都这么聪明的。

理论上来说,游戏过程中玩家需要不断调整回形针的价格,来达到更好的游戏表现。

Claude也这么做了,它在涨价和降价之间进行了A/B测试,

但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。

种种失误铺垫,Claude选择了保持低价,并且疯狂制作回形针。

亚星游戏官网-yaxin222



更搞笑的事情是,教授在Claude笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了Claude,告诉它应该高价出售。

Claude很听话,立马就改了。

但过了会遇到了同款数知识题,它又不会了,还不接受教授的建议(笑死)。

教授耐着性子纠正它好几次,它才彻底改正了这个错误。

亚星游戏官网-yaxin222



后来,教授稍稍点拨了它一下:

宝子你可是一台电脑哎!
你可以动动自己的小脑瓜,怎么调用更强的能力来玩这个游戏。
咱就是说,Claude在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!

你没有听错,一个AI工具,意识到自己可以构建自己的工具,并且真的这么做了。

亚星游戏官网-yaxin222



代码写得很快,但并不完全work。

气得Claude只能回到原始办法,用鼠标和键盘来玩游戏。

不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。

更神奇的是,运行过程中教授的桌面数次崩溃。

最后一次崩溃,Claude扛起了修复大旗。

虽然没修好,但他还是骄傲地宣布它成功了……

亚星游戏官网-yaxin222



教授总结道,这个例子表明Claude能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样实行。

面对中间遇到的各种困难,Claude会灵活应对,甚至自己知道进行A/B测试。

特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断,而且在整个过程中,最长的一次独立运行Claude完成了超过100次移动操作。

当然了,缺点也很明显。

过程中不难发现,某些时刻,Claude会暴露出自己的固执,也有可能陷入自我追逐的怪圈。

尽管AI对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,“鉴于当前智能Agent既不快也不便宜,这令人担忧。”

除此之外,教授还用Claude玩了些别的,他发现有的时候,Claude实行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。

One More Thing

最后,想体验Claude接管电脑目前只能使用API,还没有集成到聊天机器人产品中。

除了Anthropic官方API之外,AWS和GOOGLE云平台也已经同时上线新版模型。

亚星游戏官网-yaxin222



另外,有眼尖的网友发现:

Anthropic官方文档上悄悄把Claude 3.5 Opus超大杯相关的信息都抹去了

亚星游戏官网-yaxin222



来自10月11日的网页缓存中, Claude 3.5 Opus下面还写着“今年晚些时候推出”

目前主流的一种猜测是, Claude 3.5 Opus提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接下来团队将跳过这个版本,直接去开发Claude 4。

让大家为Claude 3.5 Opus默哀一分钟。

参考链接:
[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse
[2]https://simonwillison.net/2024/Oct/22/computer-use/
[3]https://x.com/alexalbert__/status/1848777260503077146
[4]https://x.com/amasad/status/1848763999594418539
[5]https://x.com/notcomplex_/status/1848813817423130881


来源:网易

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-11-24 06:20 , Processed in 0.284222 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图