跳到主要内容

大模型技术入门与智能体开发实战 (v2)

课程说明:

  体验课时间有限,若想深度学习大模型技术,欢迎大家报名由我主讲的《2025大模型Agent智能体开发实战》(秋季班)

b3a518f1a9821408a79363cf694f5172

《2025大模型Agent智能体开发实战》(秋招冲刺班) 为【100+小时】体系大课,总共20大模块精讲精析,零基础直达大模型企业级应用!

  • 夏季班成果:
b3a518f1a9821408a79363cf694f5172 b3a518f1a9821408a79363cf694f5172 b3a518f1a9821408a79363cf694f5172
  • 秋季班新增:
b3a518f1a9821408a79363cf694f5172

完整课程介绍:

b3a518f1a9821408a79363cf694f5172

部分项目成果演示

from IPython.display import Video
  • MateGen项目演示
Video("https://ml2022.oss-cn-hangzhou.aliyuncs.com/MG%E6%BC%94%E7%A4%BA%E8%A7%86%E9%A2%91.mp4", width=800, height=400)
  • 智能客服项目演示
Video("https://ml2022.oss-cn-hangzhou.aliyuncs.com/%E6%99%BA%E8%83%BD%E5%AE%A2%E6%9C%8D%E6%A1%88%E4%BE%8B%E8%A7%86%E9%A2%91.mp4", width=800, height=400)
  • Dify项目演示
Video("https://ml2022.oss-cn-hangzhou.aliyuncs.com/2f1b47f42c65fd59e8d3a83e6cb9f13b_raw.mp4", width=800, height=400)
  • LangChain&LangGraph搭建Multi-Agnet
Video("https://ml2022.oss-cn-hangzhou.aliyuncs.com/%E5%8F%AF%E8%A7%86%E5%8C%96%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90Multi-Agent%E6%95%88%E6%9E%9C%E6%BC%94%E7%A4%BA%E6%95%88%E6%9E%9C.mp4", width=800, height=400)

此外,若是对大模型底层原理感兴趣,也欢迎报名由我和菜菜老师共同主讲的《2025大模型原理与实战课程》(秋招冲刺班)

aaf3bafd8ff8120d5fb079f092268961

大模型秋季班上新特惠进行时,直播间享五折特价+全套SVIP新班特定福利,合购还有更多优惠哦~详细信息扫码添加助教,回复“大模型”,即可领取课程大纲&查看课程详情👇

《大模型Agent开发实战》(体验课)

Part 1. 大模型技术入门与智能体开发实战

  今日公开课最终项目演示:

  人工智能已进入以大语言模型(LLM)和智能代理(Agent)为核心的时代。过去十多年,深度学习让机器具备了感知能力,但真正改变工作与生活方式的,是能够理解上下文并自主决策的模型。各大调研报告显示,近八成企业已经部署生成式人工智能,但仍有许多组织未能真正释放价值。与此同时,Gartner 预测,到 2028 年至少15% 的日常工作决策将由 agentic AI 自动完成。这意味着从程序员到医生、设计师等,所有职业的工作流程都面临重塑。

Gartner 被广泛认为是技术领域的权威机构之一,特别是在评估和排名各类企业技术产品和服务方面。它的报告、分析和“魔力象限”(Magic Quadrant)模型在业内具有极高的影响力。

  因此,在接下来连续两天的公开课中,我将带领大家深入了解这场变革的本质,探索大模型Agent技术的核心原理,并为大家提供具体的学习路径和零基础上手开发智能体实战案例。相信通过两天的学习,大家不仅能够理解技术趋势,更能够掌握在大模型技术领域长足发展的核心技能。

1. 各行业AI提效工具爆发

  首先大家可以思考下,你们自己,或者身边的朋友开始早已开始频繁使用各种AI工具?是否发现一些原本需要团队协作完成的复杂任务,现在一个人就能搞定?这其实不是偶然现象,而是一场正在进行的技术革命。

  接下来我来为大家深入分析当前正在发生的四大技术变革。这些变革不是未来的预测,而是正在我们身边发生的现实。

  • 变革一:初级程序员角色的重新定义

  首先让我们来看看编程领域的变化。对于初级软件开发人员,他们的职业竞争对手不再仅仅是精英院校的优秀人才或裙带关系,还有那些据称会让初级开发人员的工作变得多余的人工智能编码工具。斯坦福大学最近的一项数字经济研究发现,到 2025 年 7 月,22-25 岁软件开发人员的就业率将比 2022 年底的峰值下降近 20%。。

论文地址:https://digitaleconomy.stanford.edu/wp-content/uploads/2025/08/Canaries_BrynjolfssonChandarChen.pdf

  这张图反映了,年轻开发者(22–30 岁)数量在下降,尤其是 22–25 岁群体流失最严重。中年开发者(31–49 岁)数量显著增加,成为增长的主要力量。资深开发者(50+)保持稳定或小幅增加。整体趋势表明:软件开发行业的人才结构正在发生转变,年轻人减少,中年和资深人员比例上升。这可能与行业门槛提高、AI 工具取代初级岗位、公司更偏向留用有经验的人才等因素有关。

  这种变化的核心原因是:写代码这件事变得太简单了。当一个GitHub Copilot每月只需10美元,却能完成一个月薪三万程序员大部分的基础编码工作时,企业的招聘逻辑必然发生改变。但这并不意味着程序员会消失,而是角色在转变——从"代码编写者"转向"需求理解者"、"架构设计者"和"AI协作者"。

  我现在一直秉持一个观点:现在是学习编程最好的时代。为什么这么说?传统的学习方式是从语法开始,逐步构建编程思维。但现在有了GitHub CopilotCursor AI这样的工具,我们可以:

  • 通过自然语言描述需求,直接生成代码框架
  • 在实践中理解代码逻辑,而不是背诵语法
  • 专注于问题解决思维,而非语法细节

  这就像是从"学会走路再学跑步"变成了"坐在车上学习如何到达目的地"。学习的重点从"如何实现"转向了"要实现什么"。

  • 变革二:学习门槛的大幅降低

  通用知识、问题解决已从Google Search百度一下逐步被ChatGPTDeepSeek等大模型应用中的联网检索、深度研究等功能替代,

  此外,AI的影响远远超出了编程领域。举个具体的例子——Figma最近发布的AI功能。作为设计师,过去需要花费大量时间的重复性工作现在可以"一键生成":

 • 根据文本描述自动生成界面设计

 • 智能重命名图层和组件

 • 自动替换内容和翻译文字

 • 一键删除图像背景

  类似的变革在各个领域都在发生:Notion AI让知识管理变得智能化,Adobe Firefly让图片创作变得简单,这些工具正在将专业技能"民主化"。

  • 变革三:从脚本化到智能化的工作流

  这是我认为最具革命性的变化——智能代理(Agent)的出现。

  传统的RPA(机器人流程自动化)只能按照预设脚本执行固定流程,就像一个只会按菜谱做菜的机器人。但现在的Agent不同,它们具备了:

 • 自主规划能力:能够分解复杂任务

 • 动态决策能力:根据实际情况调整策略

 • 工具调用能力:能够操作多个系统和应用

 • 学习适应能力:从经验中不断改进

  根据我们团队的实践经验,一个设计良好的Agent系统可以在金融欺诈调查、医疗患者护理协调、供应链优化等各种复杂场景中发挥巨大作用。原本需要多名专业人员协作数天的工作,现在可能只需要几小时。

  该项目来源于我们秋季班的正式付费课程,两门大模型课程秋招冲刺班即将封班,直播间享五折特价+全套SVIP新班特定福利,合购还有更多优惠哦~详细信息扫码添加助教,回复“大模型”,即可领取课程大纲&查看课程详情👇

  2025年8月27日 a16z 发布全球最受欢迎AI榜单,其中AI Agent 相关的工具占据了榜单的半壁江山:

  • 通用聊天助手:开放式对话、信息检索、写作辅助、数据分析、代码生成…
  • 多模态应用:图像视频生成、二次创作、从文本生成语音/音乐/视频等…
  • 专业AI编程:专业编程Agent,实现端到端的代码修改、项目创建、debug…
  • 通用智能体:多工具调用协同完成复杂工作…

  那大家可以思考下:如果我们确实认知到了掌握AI工具/技术是必然趋势,那么现在你能不能想到,或者能不能找到底有哪些工具能帮助到你,以及如何帮助到你?

  这里提出一个结论:掌握AI,是会用 AI 的前提。

2. 互联网就业市场的深层变化

  技术变革必然带来就业市场的重构。让我用数据来告诉大家现在正在发生什么。

  大模型和 Agent 的普及正在重构就业市场。入门级开发者和重复性工作者的需求下降,如前文所述,初级程序员岗位大幅减少,具有 AI 技能的人才需求上升。OpenAI 报告指出,雇主优先录用具有 AI 技能的求职者,相关岗位薪资溢价高达 56%,企业招聘偏好由“会写代码”转向“会指挥 AI 写代码”。Reworked 进一步指出,三分之二的领导者不会录用不具备 AI 工具使用经验的候选人。

  当然,技术进步也带来了新的机会。目前几个正在快速增长的新职业:

 • AI界面设计师:设计人与Agent的交互体验

 • Agent编排工程师:负责设计多代理系统的协作策略

 • 数据治理与伦理专家:确保AI系统的公平性和合规性

 • AI训练师:专门负责训练和优化特定领域的AI模型

  而对国内来说,AI Agent 的兴起,也带来了新的机会。

3. 五级AI开发技能蓝图

  接下来我想和大家分享一个非常重要的概念框架——OpenAI提出的AI发展五级体系。这个框架不仅帮我们理解AI技术的演进路径,更重要的是,它能指导我们的学习和职业规划。

  我用一个简单的比喻来解释这五个等级:如果把AI的发展比作一个人的成长过程,那么我们现在正在经历从"会说话的孩子"向"能独立思考的青少年"的转变,而最终目标是培养出"能够管理企业的成熟领导者"。

AI发展五级体系概览

等级名称核心能力发展状态
Level 1会话式AI自然语言理解与生成已成熟
Level 2推理者复杂问题解决与推理快速发展中
Level 3自治Agent自主规划与执行任务正在突破
Level 4创新者主动创新与优化改进研发阶段
Level 5组织型AI独立管理组织运营未来愿景

  这个层级划分,代表的是对Agent到底应该如何去定义的不同衡量。什么样的应用程序能算的上一个Agent? 到现在仍然没有特别一个明确的说法和界定。有的人认为只要应用程序中集成了能够处理全领域知识查询的大模型,它就可被视为一个Agent,而更多的一部人则认为这还远不够,他们会觉得只有当一个应用程序能像人类一样思考并自主处理复杂任务时,才真正符合 Agent 的标准。大家应该都听过这样一种观点:大模型的发展使得人工通用智能(AGI)在未来成为现实的可能性也越来越大。在这个过程中,基础的Agent扮演关键角色。那么,什么样的Agent最符合未来的发展趋势呢?

  • Level 1:会话式AI——我们的现在

  这是我们目前最熟悉的AI形态,包括ChatGPTDeepSeek文心一言等。我把它们比作"智能助手",它们能够:

 • 进行自然流畅的对话交流

 • 生成各种类型的文本内容

 • 回答问题和提供信息

 • 辅助写作、翻译、总结等任务

  在我们团队的长期探索中,其实发现大部分企业目前还停留在这个阶段,主要用AI来做客服自动回复、内容生成等基础工作。

  • Level 2:推理者——正在崛起的智能

  OpenAI 定义的AI第二阶段为推理者。推理者是可以完成基本问题解决任务的系统,不需要借助任何工具,通过改进推理增强大模型处理各种任务的能力,这包括从做出重大科学发现到规划和构建新的软件应用程序。

 • 解决复杂的数学和逻辑问题

 • 进行深度的数据分析和推理

 • 生成详细的商业策略建议

 • 处理需要专业知识的复杂任务

  目前像GPT-5Claude-4等模型不断的在从Level 1向Level 2快速演进。企业开始用它们来做市场分析、技术方案设计等更高价值的工作。

  • Level 3:自治Agent——正在进行中的突破

  AI的第三个阶段,OpenAI 认为是AI Agent,它是可以代表用户采取行动的系统。可以借助一些框架 如 AutoGenLangGraph等通过工作流的编排去让应用程序自主完成一些特定的用户需求和任务目标,整个过程不需要任何的人工介入。

  这是我认为最激动人心的阶段!Level 3的AI不再需要人类的每一步指导,它们能够:

 • 自主规划:将复杂目标分解为具体步骤

 • 工具调用:主动使用各种软件和系统

 • 持续执行:在多天时间内持续推进项目

 • 错误恢复:遇到问题时自动调整策略

  想象一下,你只需要告诉AI"我要开发一个电商网站",它就能自动完成需求分析、技术选型、代码编写、测试部署的全流程。这就是Level 3的能力。

  • Level 4:创新者——AI开始超越人类思维

  第四个阶段的创新者是指:可以帮助发明的人工智能。这类应用帮助人们产生想法、编写代码和进行创作,它们以专门开发的 AI 系统的形式出现,以帮助原型、构建和制造物理产品

  第四级AI真正令人震撼的地方在于它们不再是简单的"执行者",而是成为了"创新者"。它们具备:

 • 主动创新能力:能够提出人类未曾想到的解决方案

 • 批判性思维:能够质疑现有流程并提出改进建议

 • 跨领域整合:能够结合不同领域的知识创造新价值

 • 自我演化:能够从每次任务中学习并优化自身能力

  在我看来,这个阶段的AI将彻底改变企业的创新模式。比如,它们可能会分析你的业务数据,然后主动建议一个你从未考虑过的新产品线,并提供完整的市场分析和实施方案。

  • Level 5:组织型AI——数字化的企业管理者

  最高级别的AI将具备完整的组织管理能力,我把它们比作"数字CEO"。它们能够:

 • 战略制定:独立制定长期发展战略

 • 资源调配:优化配置人力、财力、物力资源

 • 团队协调:管理多个AI代理的协作关系

 • 决策执行:在复杂环境中做出关键业务决策

  Sam Altman预测这个阶段可能在十年内实现。届时,我们可能会看到完全由AI运营的数字企业,它们不仅效率极高,还能24小时不间断地进行创新和优化。

  了解了这五个等级后,让我们来看看每个阶段需要掌握的核心技术。这对我们的学习规划非常重要:

各等级核心技术要求

AI等级必备技术能力关键技术框架
Level 1Prompt工程、API集成、基础数据处理大模型 API、LangChain基础、向量数据库
Level 2高级推理技术、专业知识建模、检索增强Chain-of-Thought、RAG、知识图谱
Level 3Agent架构、工具集成、记忆管理AutoGen、LangGraph、函数调用
Level 4强化学习、元学习、跨领域融合自我评估、迭代优化、创新算法
Level 5多代理协作、企业治理、决策系统大规模协作框架、监管机制

4. Agent技术深度解析与上手实战

4.1 什么是Agent

  现在我们来继续深入了解Agent技术的核心原理。在我的理解中,智能代理可以比作一个"数字员工",它不仅能思考,还能行动。传统的AI就像一个非常聪明的顾问,你问它问题,它给你答案。但Agent不同,它像一个真正的员工,能够:

 • 理解目标:准确理解你想要达成的结果

 • 制定计划:将复杂目标分解为可执行的步骤

 • 使用工具:主动调用各种软件、API、数据库

 • 持续执行:一步步完成任务,直到达成目标

 • 自我调整:遇到问题时能够修正策略

  让我用一个具体的例子来说明:如果你告诉传统AI"帮我分析一下公司的销售数据",它会回答"你需要收集数据、清洗数据、建立模型..."。但如果你告诉Agent同样的任务,它会直接连接你的数据库,提取数据,运行分析程序,生成图表,最后给你一份完整的分析报告。

  当“我”萌生了去北京旅游的想法时,按照常规的出游思路,我需要进行以下前期准备和计划: FENCE0

  在上述北京旅游的规划过程中,初始输入仅为一条意图:“我想去北京旅游”。接下来的所有步骤,包括在小红书上查找旅游信息、通过携程APP订票、以及使用飞猪APP预订酒店,都是一系列的思考和行动过程。提示工程是一种非常经济有效的方法,我们已经习惯于利用它来增强大语言模型(LLM)处理复杂任务的能力。那么对于上述过程,如果也想让大模型通过提示工程的这种方式去自主完成,其实并不复杂,这里我们先给出提示示例:


prompt = """

你需要在“思考、行动、观察、回答”的循环中运行。
在循环的最后,你需要输出一个答案。
使用“思考”来描述你对被问及问题的思考。
使用“行动”来执行可用的行动之一。
“观察”将是执行这些行动后的结果。
“回答”将是对观察结果的分析。

你的可用行动有:

小红书:
例如:小红书: 北京旅游攻略
通过小红书API搜索,并返回北京旅游攻略和推荐。

携程:
例如:携程: 前往北京的航班
通过携程API搜索,并找到前往北京的可用航班。

尽可能使用小红书和携程API进行查询。

示例会话:

问题: 我正计划去北京旅游,我应该先做什么?

思考: 我应该在小红书上查找关于访问北京的景点和攻略。

行动: 小红书: 北京旅游攻略

观察: 搜索返回了北京的热门旅游攻略和必游景点的列表。

回答: 首先,你可以在小红书上了解北京的必游景点和旅游攻略。接着,在携程上查找可用的前往北京的航班,并考虑住宿选择。

.......

"""

## 4.2 Agent的四大核心模块

  接下来我来详细讲解Agent的技术架构。一个完整的Agent系统包含四个核心模块:

<div align=center><img src="https://muyu20241105.oss-cn-beijing.aliyuncs.com/images/202509271410906.png" width=60% /></div>

&emsp;&emsp;这四个模块分别是:**记忆(Memory)****规划(Planner)****工具(Tools)****反思(Reflection)**。它们共同构成了Agent的"大脑""手脚"

> 图片来源:https://lilianweng.github.io/posts/2023-06-23-agent/ , 强烈建议大家通篇阅读。

&emsp;&emsp;这套**智能代理架构是指自主代理的结构化设计**,自主代理是能够独立感知环境、做出决策并采取行动以实现特定目标的系统或实体。该架构描述了代理的各个组件如何交互以促进智能行为。该架构包含四个关键组件:

- 规划(Planning):该组件将代理置于动态环境中,使其能够根据其目标和收集的信息制定策略并规划未来的行动。
- 记忆(Memory):该组件使智能体能够回忆过去的行为、经历和结果,这对于学习和适应至关重要。
- 行动(Action):该组件将智能体的决策转化为具体的行动,执行计划的任务以达到预期的结果。
- 工具(Tools):拥有一名仅拥有LLM的代理人就像使用一台没有任何额外设备的计算机一样。工具让代理能够使用互联网、获取特殊知识或与擅长特定事物的几种不同的人工智能模型一起工作,从而使代理变得更加有用。

<div align=center><img src="https://muyu20241105.oss-cn-beijing.aliyuncs.com/images/202509271406685.png" width=80% /></div>

# 4. 快速实现Agent的主流开发框架

&emsp;&emsp;构建一个功能完备的AI Agent涉及整合LLM、工具、记忆等诸多要素。而所谓的 Agent 开发框架,就是为了大大简化大模型Agent应用的开发难度。下面我们介绍几类主流的框架,从低代码平台到灵活编程库乃至底层协议,帮助大家可以了解不同构建AI Agent的方式。

- **低代码开发平台**

- **Dify/Coze/n8n**:以Dify为代表的产品提供一个完全托管的Agent平台,用户只需通过自然语言或简单配置来描述需求,平台内部已经封装了规划、记忆、工具集成等全部逻辑。可以让非程序员也构建如"帮我管理日程并自动发送邮件"这样的Agent。这些平台本质上是把前沿Agent技术包装成了易用的SaaS。

```python
from IPython.display import Video

Video("https://ml2022.oss-cn-hangzhou.aliyuncs.com/2f1b47f42c65fd59e8d3a83e6cb9f13b_raw.mp4", width=800, height=400)
  • 敏捷开发框架

  随着多智能体需求增加,也出现了一些帮助构建多Agent系统的库。例如AutoGen(微软亚洲研究院开源)提供了让多个Agent基于对话进行协同的封装;AgentVerse框架支持多Agent的任务求解模式和模拟仿真模式,便于编排一组Agent的交互;LangChain提供了用状态机方式来组织复杂Agent流程,支持多Agent场景下的交互和同步。

FENCE0

  • 底层开发框架

  新一代的 Agent 开发框架越来越注重性能和可扩展性。Google ADK(Agent Development Kit)在设计上强调模块化和多 Agent 协作编排,支持异步执行、事件驱动和高并发场景,适合在生产环境中承载复杂工作流。OpenAI 的 Agents SDK 则简化了工具接入与上下文管理,使得构建“能调用工具、能记忆、能多步推理”的高性能 Agent 更加直接。这类框架通常提供流式输出、增量上下文管理和轻量级状态存储,能显著降低响应延迟并提高吞吐量.

FENCE0

主流Agent框架特点对比

框架名称开发团队核心特色适用场景学习难度
LangChainLangChain(LangChain Inc.)面向“可靠 Agent”的组件化生态:工具/提示/检索/RAG/Agent 组合通用型 Agent 与 RAG 原型到生产⭐⭐⭐
LangGraphLangChain(LangChain AI)图状态机、长运行有状态Agent、可控可观测的低层编排复杂工作流、循环任务、需要严格边界与恢复⭐⭐⭐⭐
CrewAICrewAI Inc(开源)多 Agent 角色分工、轻量快速、与社区生态兼容模拟团队协作、并行执行、自动化助手编排⭐⭐
AutoGenMicrosoft多 Agent 对话框架,支持自治/人机协同代码协作、代码审查、研究/业务多代理协作⭐⭐⭐
OpenAI Agents SDKOpenAIAgents / Handoffs / Guardrails / Sessions 一体,官方工具链基于 OpenAI 生态构建多 Agent 应用与交接⭐⭐⭐
Google ADKGoogle(Vertex AI)面向企业的 Agent Development Kit:本地/云开发、内置 Dev UI、工具/检索GCP/Vertex AI 场景、企业级工作流与治理⭐⭐⭐⭐
DifyLangGenius, Inc.(Dify)低代码开发与托管:可视化构建 Agent、RAG 管线、应用发布与运维团队协作、快速上线、A/B 迭代⭐⭐
CozeByteDance(BytePlus/Coze)零代码搭建 Agent,多平台发布;提供 开源 Coze Studio/Loop 形态运营/产品快速试错、跨平台分发与接入
n8nn8n GmbH可视化工作流编排 + AI 能力,400+ 集成,支持自托管AI+业务自动化、触发-动作编排、与内部系统对接⭐⭐
>

  最后,分享一个最适合初学者入门的系统的学习路径,这是我基于三年大模型技术教学经验总结出的最有效的学习方案: