一位消息人士告诉彭博社,这一挫折意味着 OpenAI 不太可能在明年年初之前向其用户推出 Orion。与此同时,据三位知情人士透露,GOOGLE的下一个 Gemini 迭代本应是一次重大升级,但其表现也低于内部预期。同样,期待已久的 Anthropic Claude 3.5 Opus 的发布也被推迟。生成式 AI 在训练中高度依赖于互联网数据。虽然它们在快速生成响应方面表现出色,但似乎已触及瓶颈,无法找到新的高质量内容源来开发更高级的 AI 系统。两位消息人士告诉彭博社,Orion 的编码性能不佳是由于缺乏足够的编码数据进行训练。出版商和编辑则担心 AI 系统在未经同意或补偿的情况下抓取他们的内容进行训练。MicroSoft和 OpenAI 也正在应对多起版权侵权诉讼。OpenAI CEOSam Altman 承认,在没有版权内容的情况下开发类似 ChatGPT 的工具几乎是不可能的。他也指出,版权法并未明确禁止使用受版权保护的内容来训练 AI 模型。OpenAI 最近在一场版权侵权诉讼中胜诉。纽约联邦法官说得很明白:
让大家搞清楚这里真正的问题是什么。原告( Raw Story 和 AlterNet )真正想要追究的,并不是说 OpenAI 删除了版权管理信息,而是 OpenAI 没给钱就用了他们的文章来训练 ChatGPT。
高质量数据的缺乏并不是限制高级 AI 模型发展的唯一问题。构建和维护新模型的高成本也是一个重要障碍。据报道,在过去的几个月里,OpenAI 预计亏损 50 亿美金。然而,他们通过另一轮融资成功续命——从MicroSoft、英伟达和其他主要投资者那里筹集了 66 亿美金。