一口气讲清楚：AI Agent发展史

Agent这个名词，做技术的同学都不陌生。

在IT技术领域，Agent指的是“代理”能力，这个“代理”能力概述来说可分为三部分：感知环境、自主决策和执行任务的能力。

举个例子，CICD流水线中的很多任务，都是Agent根据配置好的逻辑规则自动触发执行。包括不同的分支走不同的测试环境，调用哪些技术组件，执行任务的结果通知等。

在AI领域，Agent代指智能体，它同样具备感知环境、做出决策并执行任务的能力，通过感知、决策和行动实现目标。它的核心特征包括：

AI Agent还可以被理解为“大模型 + 插件 + 执行流程”的结合体，分别对应控制端、感知端和执行端。

截至目前，AI Agent的发展历史可以分为四个阶段，分别是：裸大模型调用、简易Chatbot、多智能体、任务智能体。

一、裸大模型调用

简单理解类似于后端接口调用，直接返回response body。处理逻辑如下图所示：

一口气讲清楚：AI Agent发展史

Chatbot，即聊天机器人，最出名的应该是ChatGPT了，2022年底横空出世，自此开启了全球AI加速化的浪潮。

Chatbot的实现原理，其实就是在裸大模型调用上封装了一层，从后端接口调用，变成了界面可视化的Chatbot。当然，Chatbot的每一轮对话，都会包含系统提示词+历史对话+最新一轮的用户提示词。处理逻辑如下图所示：

一口气讲清楚：AI Agent发展史

所谓多智能体，即Multi-agent，Manus就是采用了这种技术实现架构。

Multi-agent可以理解为多个Agent进程/线程并行工作，它们之间通过通信机制进行沟通(例如TCP)。比如metagpt，就是典型的多角色协同(多Agent并行)工作。

关于Manus的更多技术细节，可查阅这篇文章：一张图讲清楚：Manus的技术架构

四、任务智能体

任务智能体目前可以粗略分为两种类型：短任务智能体、长任务智能体。

长任务智能体，还可以细分为两种：

下面是autogpt的工作流程示意图：

一口气讲清楚：AI Agent发展史

有一些关于AI Agent的概念需要做出澄清，避免大家混淆。

智能体这个概念最初源自Langchain。Langchain是一个很古老的智能体项目，它的重大意义在于提出了智能体的概念，以及组成部分。后面问世的智能体，大多都有Langchain最初的影子。

智能体的主要特征包含如下几个方面：

最后需要明确的是，智能体和大模型是典型的上下游概念。

Manus(Agent)和DeepSeek(LLM)之间没有任何竞争和对立关系，反而与DeepSeek应用(chatbot)有竞争关系。

AI+测试全链路落地实践技术训练营，即将开课。课程大纲如下图：

{{userData.name}}已认证