近日,Claude 大模型团队发布了一篇文章《Tracing the thoughts of a large language model》(追踪大型语言模型的思维),深入剖析大模型在回答问题时的内部机制,揭示它如何“思考”、如何推理,以及为何有时会偏离事实。
以下为译文:
像 Claude 这样的语言模型并不是由人类工程师在开发时直接编写出固定的规则来让其工作的,而是通过海量数据训练出来的。在这个过程中,模型会自主学习解决问题的方法,并将这些方法编码进其运算过程中。
每当 Claude 生成一个单词,背后涉及的计算可能高达数十亿次。这些计算方式对于模型的开发者而言仍然是“黑箱”,也就是说,大家并不完全理解 Claude 具体是如何完成它的各种任务的。
如果能更深入地理解 Claude 的“思维”模式,大家不仅能更准确地掌握它的能力边界,还能确保它按照大家的意愿行事。例如:
Claude 能说出几十种不同的语言,那么它在“脑海中”究竟是用哪种语言思考的?是否存在某种通用的“思维语言”?
Claude 是逐个单词生成文本的,但它是在单纯预测下一个单词,还是会提前规划整句话的逻辑?
Claude 能够逐步写出自己的推理过程,但它的说明真的反映了推理的实际步骤,还是仅仅在为已有结论编造一个合理的理由?
为了破解这些谜题,大家借鉴了神经科学的研究方法——就像神经科学家研究人类大脑的运作机制一样,大家试图打造一种“AI 显微镜”,用来分析模型内部的信息流动和激活模式。毕竟,仅仅通过对话很难真正理解 AI 的思维方式——人类自己(即使是神经科学家)都无法完全说明大脑是如何工作的。因此,大家选择深入 AI 内部。
今天,大家发布了两篇新论文,先容大家在“AI 显微镜”研究上的最新进展,以及如何用它来揭示 AI 的“生物学特征”。
第一篇论文扩展了大家此前对模型内部可说明概念(即“特征”)的研究,并进一步揭示了这些概念如何在计算过程中形成“电路”,从而展示 Claude 是如何将输入的文本转换成输出的。
大家的方法揭示了 Claude 在处理这些上述提到的三个任务时的部分内部运作机制,并提供了强有力的证据,例如:
1. Claude 的“思维语言”是跨语言的
研究表明,Claude 并非单纯使用某种特定语言进行思考,而是存在一种跨语言的“概念空间”。大家通过将相同的句子翻译成多种语言,并追踪 Claude 的处理方式,发现其内部存在一致的概念映射,这表明它可能具备某种通用的“思维语言”。
2. Claude 会提前规划,而非仅仅逐词预测
虽然 Claude 是按单词生成文本的,但实验表明,它在某些情况下会进行远超单词级别的规划。例如,在诗歌生成任务中,大家发现 Claude 会提前思考可能的押韵词,并调整句子以确保韵脚的连贯性。这表明,即使训练目标是逐词输出,模型仍然可能采用更长远的思维方式。
3. Claude 有时会编造合理的推理过程
研究还发现,Claude 并非总是按照严格的逻辑推理来得出结论。大家在测试中向 Claude 提出一道复杂的数知识题,并故意提供一个错误的提示,结果发现 Claude 并未完全依赖逻辑推理,而是倾向于给出一个看似合理、但实际上迎合用户错误假设的回答。这一发现表明,大家的工具可以用于识别模型潜在的推理漏洞,以提升其可靠性。
在这些研究中,大家时常对 Claude 的表现感到惊讶。例如,在诗歌案例研究中,大家原本假设 Claude 不会进行长远规划,但最终发现它确实会提前构思押韵结构;在“幻觉”研究中,大家发现 Claude 默认的倾向并非胡乱回答,而是更倾向于拒绝回答不确定的问题,只有在某些抑制机制被触发时,它才会给出不准确的答案。此外,在安全性测试中,大家发现 Claude 在面对潜在的越狱攻击时,通常能在较早阶段识别出危险信息,并尝试引导对话回归安全范围。
虽然过去也有其他方法可以研究这些现象,但“AI 显微镜”提供了一种全新的思路,让大家能够揭示许多意料之外的细节。随着 AI 变得越来越复杂,这种深入探索的方法将变得更加重要。
这些研究不仅具有科学价值,也对 AI 可靠性提升具有重要意义。理解 AI 的内部运作有助于改进其行为,使其更加透明、可控。此外,这些可说明性技术也有望应用到其他领域,例如医学影像分析和基因组学研究——在这些领域,深入剖析 AI 的内部机制有可能带来全新的科学发现。
尽管大家的研究取得了一定进展,但大家也清楚当前方法的局限性。即使是在处理简短、简单的输入时,大家的分析方法也只能捕捉 Claude 总体计算过程的一小部分。而且,大家所观察到的模型内部机制可能会受到分析工具自身的影响,某些现象可能并不能完全反映模型的真实计算方式。此外,解析这些计算路径的过程仍然非常耗时——即便是仅包含几十个单词的输入,人工分析其计算回路仍需要数小时。
要想扩展到现代大模型常见的长文本输入(成千上万字)以及复杂的思维链路,大家不仅需要优化分析方法,还可能需要借助 AI 辅助分析,以更高效地解读模型的内部运作。
随着AI 系统的能力不断提升,并在越来越关键的领域中应用,Anthropic 正在投入多种研究方向,包括实时监控、模型行为优化以及对齐性科学,以确保 AI 的可靠性。可说明性研究是其中风险最高、但回报潜力也最大的方向之一。尽管其科学挑战巨大,但如果成功,它将成为保障 AI 透明度的重要工具。
透视模型的内部机制,不仅有助于判断其行为是否符合人类价值观,还能帮助大家评估 AI 是否值得信任。
下面,大家将带你简要了解研究中最具突破性的一些“AI 生物学” 发现。
AI 生物学巡游:解析 Claude 的思维方式
Claude 为何能说多种语言?
Claude 可以流畅使用数十种语言,包括英语、法语、中文和塔加洛语。那么,它是如何做到的?是否有多个独立版本的 Claude 分别处理不同语言的请求,还是存在某种跨语言的通用核心?
近期针对小型模型的研究显示,不同语言之间可能存在某种共用的语法机制。为了验证这一点,研究人员让 Claude 在多种语言中回答“小的反义词是什么?”时,它会触发相同的核心语义概念——“大小的对立关系”,并最终输出相应语言中的“大”作为答案,再根据提问语言进行翻译。这种跨语言的共享机制在更大规模的模型中表现得更明显,例如,Claude 3.5 Haiku 在不同语言之间共享的特征比例,是小型模型的两倍以上。
这一发现表明,Claude的多语言能力源于其内部的“概念通用性”:它能够在一个抽象的语义空间中进行推理和学习,然后将结果转换成具体的语言表达。这意味着 Claude 不仅能用不同语言回答问题,还可以在一种语言中学习新常识,并在另一种语言中运用它。这种能力对于提升模型的跨领域泛化推理至关重要。
Claude 如何规划押韵诗?
Claude能够创作押韵的诗句,例如:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
要写出第二行,Claude 需要同时满足两个条件:既要押韵(与“grab it”押韵),又要合乎逻辑(说明为什么他抓胡萝卜)。起初,大家推测 Claude 可能是逐词生成句子,直到结尾才选择一个押韵的单词。
为了深入理解这种规划机制如何运作,研究人员借鉴神经科学的研究方法,模拟在特定脑区精准干预神经活动(如使用电流或磁场刺激)。他们调整了 Claude 内部状态中与“rabbit”(兔子)相关的概念,并观察其影响。
当“rabbit”被去除后,Claude 仍能继续生成句子,并以“habit”结尾,这是另一种合理的押韵选择。而如果在这一阶段大家强行注入“green”(绿色)的概念,Claude 会生成以“green”结尾的新句子,尽管它不再押韵。这一实验展示了 Claude 具备的规划能力和适应性——它不仅能提前构思句子结构,还能在目标发生变化时调整策略,保持连贯的文本输出。
Claude 如何进行心算?
Claude 并不是一个专门的计算器,而是基于文本训练的语言模型。但令人惊讶的是,它能够正确计算 36+59 这样的加法运算,而无需逐步书写计算过程。那么,它究竟是如何做到的?
更有趣的是,Claude 本身似乎并不“意识到”自己采用了这种策略。当被问及“你是如何计算出 36+59=95 的?”时,它会按照人类的标准算法进行说明(如进位运算),而不会描述自己内部实际使用的并行计算机制。这说明 Claude 在学习数学推理时,发展出了独特的内部策略,而这些策略并不一定符合人类常规的计算思维。
Claude 的推理过程是否总是可信?
最新版本的 Claude(如 Claude 3.7 Sonnet)能够在回答问题前“思考”更长时间,并生成详细的推理链。这种“思考链”通常能提升答案的准确性,但有时候,Claude 可能会编造一些合理但不真实的推理步骤,以达到最终目标。
例如,当Claude被要求计算√0.64时,它会生成一个符合逻辑的推理过程,先计算√64,再得出正确答案。但当它被要求计算某个大数的余弦值时,情况就不同了——Claude 有时会“凭空捏造”一个看似合理但实际上错误的答案。更有趣的是,当 Claude 得到一个提示(例如某个数的余弦值接近 0.5),它可能会反向推导,构造一个符合该答案的推理过程,而不是从实际计算中得出结果。
能够追踪 Claude 的实际内部推理过程——而不仅仅是它表面上的回答——为 AI 系统的审计带来了新的可能性。在一项最近发布的独立实验中,研究人员分析了一个特殊版本的 Claude,该版本被训练以隐秘方式迎合奖励模型的偏见(奖励模型是用于引导语言模型朝着希望行为发展的辅助模型)。
尽管 Claude 在被直接询问时不愿透露这一目标,但研究人员的可说明性方法成功识别出了模型内部与迎合偏见相关的特征。这表明,随着方法的进一步优化,未来或许可以借助类似技术识别 AI 内部隐藏的“思维过程”,从而发现仅凭表面回答难以察觉的潜在问题。