只需一步,快速开始
短信验证,便捷登录
军衔等级:
三级军士长
我对这个新的前沿数学基准测试感到惊讶,因为大语言模型在其中仅能解决2%的问题。引入这个基准测试的原因是大语言模型在现有数学基准测试中表现得越来越出色。有趣的问题在于,尽管从许多评估来看,大语言模型在数学和编程等领域已经逐渐接近顶级专家的水平,但你还是不会选择它们来完成对人类本身来讲最容易的工作。它们可以解决复杂的封闭问题,只要你在提示词中恰当地呈现问题描述,但它们在自主且连贯地解决长问题序列方面却很艰难,而这对人类来说是非常容易的。 这就是Moravec悖论的隐性体现,他在30多年前观察到,人类认为简单或困难的事情,对于计算机来说可能却恰恰相反。例如,人类对计算机下棋感到非常惊讶,但下棋对计算机来说却很简单,因为这是一个封闭的、确定性的系统,具有离散的动作空间、完全可观测性等等。反过来,人类可以系鞋带或折叠衬衫,并不觉得这有什么了不起,但这实际上是一个极其复杂的传感运动任务,对硬件和App的最先进技术也还是一个挑战。这就像OpenAI前段时间发布的魔方项目,大多数人关注的是解魔方本身(这很简单),却不是让机器人用手去扭合一面魔方这种其实极其困难的任务。 所以我非常喜欢这个FrontierMath基准测试,大家应该多做一些这样的测试。但我也认为这是一个有趣的挑战,大家如何为所有那些「简单」但实际上很难的事情创建评估。非常长的上下文窗口、连贯性、自主性、常识、有效的多模态输入输出……大家如何构建好的「简单工作」评估?这些是你希望团队中任何入门级实习生都能完成的事情。
举报本楼
发表回复 回帖后跳转到最后一页
手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2024-11-26 14:05 , Processed in 0.274591 second(s), 17 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed