《Agentic AI漫游指南》：从理解Transformer到构建自主AI系统

如今，AI 工程师正被迫向“全栈”方向发展。

过去几年，AI 工程的学习路径是清晰的：你可能只需要懂模型调用、Prompt、RAG 或一个 Agent 框架，就能搭建出一个看起来不错的 AI 应用。但到了 2026 年，核心问题已悄然改变：

AI 如何在复杂任务中稳定、可靠、可评估地运行？

这也意味着，问题已不再只涉及单一模块。模型、训练、推理、系统与 Agent 编排的边界变得越来越模糊：

训练问题，可能同时涉及优化器、数据分布与并行策略；

推理延迟问题，可能来自 Attention 机制、KV cache 或系统调度；

Agent 的失败，也可能由模型能力、工具接口与记忆机制共同导致。

虽然 AI 技术栈正快速扩展，目前的相关知识却高度分散，实践者仍然缺少一张能把模型、训练、系统与 Agent 串起来的全景地图。

针对这个问题，亚马逊首席应用科学家 Haggai Roitman 撰写了面向实践者的统一参考手册。它不只是一篇传统意义上的论文综述，而是一张贯穿 Agentic AI 技术栈的导航图。

链接：https://arxiv.org/abs/2606.24937

对工程实践者而言，这本书能让他们面对真实问题时，能够快速定位自己所处的系统层级，并理解上下游之间的依赖与影响关系。

这本书适合谁看？

这本手册面向的不只是大众AI爱好者，还包括构建 AI 系统的工程师、研究员和技术负责人。

Roitman 假设读者熟悉神经网络和基础概率论，但不要求已经具备 LLM、强化学习或系统工程背景。

如果你是ML 工程师，它能帮你理解 Transformer 内部机制、训练基础设施、优化方法等；

如果你是应用研究人员，它能帮你比较模型架构、微调策略和面向具体任务的强化学习方法；

如果你是Agent 开发者，它系统梳理了编排模式、记忆架构、工具集成 MCP、多 Agent 协调 A2A，以及生产系统里的评估问题；

如果你是系统工程师，它覆盖 GPU 集群、分布式训练、推理部署和 vLLM 等基础设施问题；

如果你是技术负责人，它更像是一份用于判断架构取舍和资源投入的全栈参考图。

读完后，你将：

1.理解LLM 内部机制，包括注意力机制、位置编码、MoE 路由和 Flash Attention。

2.理解GPU 系统、分布式训练、推理优化和基于 vLLM 的生产部署。

3.掌握 LoRA/QLoRA、量化、知识蒸馏、优化器选择和学习率调度等高效训练与微调方法。

4.理解 RLHF、DPO、GRPO、KTO 等偏好优化流程，以及奖励黑客和模式崩塌等常见问题。

5.理解 DeepSeek-R1、OpenAI o1/o3 和 QwQ 等推理模型如何通过强化学习获得推理能力。

6.学习 Agent 编排、记忆设计、MCP 工具集成、A2A多 Agent 协调和Agent 评估方法。

这本书讲了什么

全书的叙述主线很清晰。它不是简单罗列 AI 术语，而是沿着一条完整路径展开：一个语言模型如何从底层架构出发，经过训练、对齐、推理和评估，最终变成能够行动的 Agent 系统。

第一部分：模型、系统与强化学习的基础

这一部分从 Transformer、token、注意力机制和优化方法出发，讨论序列建模能力的来源，以及 Flash Attention、LoRA、MoE、量化与蒸馏等效率和结构优化方法；同时也覆盖 GPU 架构、分布式训练、vLLM 等系统基础，以及 MDP、TD Learning、Q-Learning、Policy Gradient、Actor-Critic、GAE 等经典强化学习内容，为后续的对齐、推理与 Agent 训练建立底层框架。

第二部分：LLM 的对齐与强化学习方法

这一部分关注语言模型如何被对齐、优化与训练，内容覆盖 RLHF 基础、PPO、DPO、GRPO 及多种偏好优化变体，也包括奖励模型训练、SFT 最佳实践、大规模训练系统架构，以及面向 Agent 的轨迹级训练方法。

第三部分：如何让模型获得更强的推理能力？

这一部分聚焦推理能力的形成机制，以 DeepSeek-R1、OpenAI o1/o3/o4-mini 和 QwQ 等模型为例，讨论强化学习、过程奖励、搜索方法与测试时计算如何塑造思维链、回溯与自我验证等推理行为。

第四部分：如何判断一个模型或 Agent 真的变强了？

这一部分系统讨论模型与 Agent 的评估方法，从 perplexity、pass@k、ELO 等指标，到 LLM-as-Judge、人工标注、数据污染检测，再到面向 Agent 的评估体系，核心在于建立对模型质量与 Agent 能力的可靠衡量方式。

第五部分：如何把训练好的模型变成能够行动的 Agent 系统？

这一部分关注 Agentic AI 的工程层，覆盖 RAG、记忆系统、上下文管理与编排、设计模式、环境与基准、MCP、Agent Skills、A2A、多 Agent 系统、开发框架以及 Agentic UI。

第六部分：如何把这些知识变成可查、可测、可复用的参考体系？

这部分是全书的评估与参考部分，包括覆盖全书主题的详细问答题库、公式与 API 速查表、常见故障与修复线索，以及结尾对未来方向和延伸阅读的整理。

关于作者

作者 Haggai Roitman 在 AI 研究与大规模生产系统交叉领域深耕二十余年，他的研究兴趣涵盖信息检索、推荐系统、自然语言处理、LLM、面向 LLM 的强化学习及 Agent 系统。他已发表逾百篇同行评审论文，持有约 100 项专利，本科和博士均毕业于以色列理工学院。

他与 Agent 的故事始于二十年前。攻读信息系统工程本科期间，Roitman 学习了面向智能体的软件工程 AOSE，并使用 JADE 构建多 Agent 系统。此后，他又使用 OntoBuilder 构建购物 Agent，尝试让系统自动在不同网站上填写商品搜索和订单，并通过本体匹配理解不同网站的数据结构。

Haggai Roitman 提到，2024 至 2026 年之所以非同寻常，在于将以下的技术路线汇合到了一起：LLM 提供语言理解与生成能力，强化学习负责推理与对齐，MCP 负责标准化工具调用，编排框架则负责将这些能力组织为可运行的系统。