ReAct: 让 AI 学会“思考、行动、再思考”

我们已经知道，思维链 (Chain-of-Thought) 赋予了 AI “想清楚了再说”的推理能力。我们也知道，函数调用 (Function Calling) 为 AI 插上了可以操作世界的行动“手脚”。

但是，如果一个问题，既需要推理，又需要与外部世界互动才能解决，该怎么办？

ReAct (Reason + Act) 就是一个将这两者完美结合的、开创性的提示词框架。它为 AI 设计了一套强大的“认知循环”，让 AI 能够像人类一样，通过 “思考 → 行动 → 观察 → 再思考” 的循环，来解决复杂的、需要与环境互动的任务。

ReAct，是驱动现代 AI Agent (智能代理) 的核心“操作系统”。

本文核心洞察

核心理念：ReAct 将“推理 (Reasoning)”和“行动 (Acting)”这两个关键动作交织 (interleave) 在一起。AI 不再是“要么只思考，要么只行动”，而是在每一步行动前后，都进行思考和反思。
工作原理：其核心是一个“思考-行动-观察”的循环。AI 首先思考出解决问题的下一步计划，然后行动（调用一个工具），接着观察行动的结果，最后根据新的观察结果，进入下一轮的思考，动态调整计划。
与 CoT 和函数调用的关系：如果说 CoT 是纯粹的“大脑”，函数调用是纯粹的“手脚”，那么 ReAct 就是连接大脑和手脚的“神经系统”，让它们协同工作。
主要挑战：ReAct 虽然强大，但其多轮循环的特性也带来了更高的成本、更长的延迟，并存在错误传播和陷入死循环的风险。

ReAct 的“内心独白”：一个实例

让我们看一个经典问题，来揭示 ReAct 框架下 AI 的“内心独白”。

问题：“目前，苹果公司（Apple Inc.）的 CEO 和特斯拉公司（Tesla, Inc.）的 CEO，谁的年龄更大？”

一个采用 ReAct 框架的 AI Agent 会这样工作：

循环 1

Thought (思考): 我需要回答“苹果和特斯拉的CEO谁年龄更大”。我的计划是：1. 找到苹果CEO的名字和出生年份。2. 找到特斯拉CEO的名字和出生年份。3. 比较他们。第一步，先找苹果的。
Action (行动): 我将使用 search 工具。search('Apple Inc. CEO')
(外部代码执行 search...)
Observation (观察): 搜索结果返回：“苹果公司的现任CEO是蒂姆·库克（Tim Cook），出生于1960年11月1日。”

循环 2

Thought (思考): 好的，我已经知道蒂姆·库克生于1960年。现在我需要执行计划的第二步：找到特斯拉的CEO。
Action (行动): 我将再次使用 search 工具。search('Tesla, Inc. CEO')
(外部代码执行 search...)
Observation (观察): 搜索结果返回：“特斯拉公司的CEO是埃隆·马斯克（Elon Musk），出生于1971年6月28日。”

循环 3

Thought (思考): 现在我拥有了所有信息：蒂姆·库克生于1960年，埃隆·马斯克生于1971年。1960年早于1971年，所以蒂姆·库克年龄更大。我已经可以回答最初的问题了。
Action (行动): 我将生成最终答案。finish("根据查询，苹果公司的CEO蒂姆·库克（生于1960年）比特斯拉公司的CEO埃隆·马斯克（生于1971年）年龄更大。")

这个过程清晰地展示了 ReAct 如何将推理和行动结合，一步步逼近最终答案。

如何实现 ReAct？

ReAct 并非 LLM 的原生功能，而是通过精巧的提示词工程“教会”模型的。最常见的方法，就是使用少样本提示 (Few-shot Prompting)，在 Prompt 中为 AI 提供一个或多个完整的“问题 + ReAct 全过程”的范例。AI 会通过“模仿”这个范例的格式和逻辑，学会在新问题上应用同样的“思考-行动-观察”模式。

ReAct vs. 其他提示词技巧

技巧	核心思想	是否与外部世界互动	解决问题类型
思维链 (CoT)	想清楚了再说	否	纯粹的、内部的逻辑推理问题
函数调用	请求外部帮助	是（通常是一次性的）	需要调用工具才能完成的简单、明确任务
ReAct	思考-行动-观察-循环	是（多步骤、持续的）	需要推理和外部信息迭代才能解决的复杂任务

挑战与未来

尽管 ReAct 非常强大，但它也面临着现实的挑战：

成本与延迟：每一次循环都意味着一次（或多次）API 调用，这会累积高昂的费用和较长的等待时间。
可靠性：如果其中一步的工具调用失败或返回错误信息，Agent 是否有能力识别错误并自我纠正，是一个巨大的挑战。设计拥有强大纠错和“反思”能力的 Agent，是该领域的前沿方向。

未来，更先进的 Agent 架构，如增加了“自我批判”能力的 Reflection Agents 和多个 Agent 协同工作的 Multi-Agent Systems，都是在 ReAct 的思想基础上发展而来的。

前进的道路

常见误区与最佳实践

误区：ReAct 适用于所有任务。不，对于简单的、不需要与外部工具交互的问题，使用更简单的思维链或标准提示会更高效、更便宜。
最佳实践：为你的 Agent 设定清晰的“停止条件”和“熔断机制”。例如，在 Prompt 中明确规定最大循环次数，或者在遇到连续两次相同的错误时必须停止并向用户报告。这可以有效防止 Agent 陷入死循环或无休止地浪费资源。

ReAct: 让 AI 学会“思考、行动、再思考”

本文核心洞察

ReAct 的“内心独白”：一个实例

如何实现 ReAct？

ReAct vs. 其他提示词技巧

挑战与未来

前进的道路

常见误区与最佳实践

推荐资源

相关词条

本文核心洞察​

ReAct 的“内心独白”：一个实例​

如何实现 ReAct？​

ReAct vs. 其他提示词技巧​

挑战与未来​

前进的道路​

常见误区与最佳实践​

推荐资源​

相关词条​

本文核心洞察

ReAct 的“内心独白”：一个实例

如何实现 ReAct？

ReAct vs. 其他提示词技巧

挑战与未来

前进的道路

常见误区与最佳实践

推荐资源

相关词条