如今,AI 工程师正被迫向“全栈”方向发展。
过去几年,AI 工程的学习路径是清晰的:你可能只需要懂模型调用、Prompt、RAG 或一个 Agent 框架,就能搭建出一个看起来不错的 AI 应用。但到了 2026 年,核心问题已悄然改变:
AI 如何在复杂任务中稳定、可靠、可评估地运行?
这也意味着,问题已不再只涉及单一模块。模型、训练、推理、系统与 Agent 编排的边界变得越来越模糊:
训练问题,可能同时涉及优化器、数据分布与并行策略;
推理延迟问题,可能来自 Attention 机制、KV cache 或系统调度;
Agent 的失败,也可能由模型能力、工具接口与记忆机制共同导致。
虽然 AI 技术栈正快速扩展,目前的相关知识却高度分散,实践者仍然缺少一张能把模型、训练、系统与 Agent 串起来的全景地图。
针对这个问题,亚马逊首席应用科学家 Haggai Roitman 撰写了面向实践者的统一参考手册。它不只是一篇传统意义上的论文综述,而是一张贯穿 Agentic AI 技术栈的导航图。
链接:https://arxiv.org/abs/2606.24937
对工程实践者而言,这本书能让他们面对真实问题时,能够快速定位自己所处的系统层级,并理解上下游之间的依赖与影响关系。
这本书适合谁看?
这本手册面向的不只是大众AI爱好者,还包括构建 AI 系统的工程师、研究员和技术负责人。
Roitman 假设读者熟悉神经网络和基础概率论,但不要求已经具备 LLM、强化学习或系统工程背景。
如果你是ML 工程师,它能帮你理解 Transformer 内部机制、训练基础设施、优化方法等;
如果你是应用研究人员,它能帮你比较模型架构、微调策略和面向具体任务的强化学习方法;
如果你是Agent 开发者,它系统梳理了编排模式、记忆架构、工具集成 MCP、多 Agent 协调 A2A,以及生产系统里的评估问题;
如果你是系统工程师,它覆盖 GPU 集群、分布式训练、推理部署和 vLLM 等基础设施问题;
如果你是技术负责人,它更像是一份用于判断架构取舍和资源投入的全栈参考图。
读完后,你将:
1.理解LLM 内部机制,包括注意力机制、位置编码、MoE 路由和 Flash Attention。
2.理解GPU 系统、分布式训练、推理优化和基于 vLLM 的生产部署。
3.掌握 LoRA/QLoRA、量化、知识蒸馏、优化器选择和学习率调度等高效训练与微调方法。
4.理解 RLHF、DPO、GRPO、KTO 等偏好优化流程,以及奖励黑客和模式崩塌等常见问题。
5.理解 DeepSeek-R1、OpenAI o1/o3 和 QwQ 等推理模型如何通过强化学习获得推理能力。
6.学习 Agent 编排、记忆设计、MCP 工具集成、A2A多 Agent 协调和Agent 评估方法。
这本书讲了什么
全书的叙述主线很清晰。它不是简单罗列 AI 术语,而是沿着一条完整路径展开:一个语言模型如何从底层架构出发,经过训练、对齐、推理和评估,最终变成能够行动的 Agent 系统。
第一部分:模型、系统与强化学习的基础
这一部分从 Transformer、token、注意力机制和优化方法出发,讨论序列建模能力的来源,以及 Flash Attention、LoRA、MoE、量化与蒸馏等效率和结构优化方法;同时也覆盖 GPU 架构、分布式训练、vLLM 等系统基础,以及 MDP、TD Learning、Q-Learning、Policy Gradient、Actor-Critic、GAE 等经典强化学习内容,为后续的对齐、推理与 Agent 训练建立底层框架。
第二部分:LLM 的对齐与强化学习方法
这一部分关注语言模型如何被对齐、优化与训练,内容覆盖 RLHF 基础、PPO、DPO、GRPO 及多种偏好优化变体,也包括奖励模型训练、SFT 最佳实践、大规模训练系统架构,以及面向 Agent 的轨迹级训练方法。
第三部分:如何让模型获得更强的推理能力?
这一部分聚焦推理能力的形成机制,以 DeepSeek-R1、OpenAI o1/o3/o4-mini 和 QwQ 等模型为例,讨论强化学习、过程奖励、搜索方法与测试时计算如何塑造思维链、回溯与自我验证等推理行为。
第四部分:如何判断一个模型或 Agent 真的变强了?
这一部分系统讨论模型与 Agent 的评估方法,从 perplexity、pass@k、ELO 等指标,到 LLM-as-Judge、人工标注、数据污染检测,再到面向 Agent 的评估体系,核心在于建立对模型质量与 Agent 能力的可靠衡量方式。
第五部分:如何把训练好的模型变成能够行动的 Agent 系统?
这一部分关注 Agentic AI 的工程层,覆盖 RAG、记忆系统、上下文管理与编排、设计模式、环境与基准、MCP、Agent Skills、A2A、多 Agent 系统、开发框架以及 Agentic UI。
第六部分:如何把这些知识变成可查、可测、可复用的参考体系?
这部分是全书的评估与参考部分,包括覆盖全书主题的详细问答题库、公式与 API 速查表、常见故障与修复线索,以及结尾对未来方向和延伸阅读的整理。
关于作者
作者 Haggai Roitman 在 AI 研究与大规模生产系统交叉领域深耕二十余年,他的研究兴趣涵盖信息检索、推荐系统、自然语言处理、LLM、面向 LLM 的强化学习及 Agent 系统。他已发表逾百篇同行评审论文,持有约 100 项专利,本科和博士均毕业于以色列理工学院。
他与 Agent 的故事始于二十年前。攻读信息系统工程本科期间,Roitman 学习了面向智能体的软件工程 AOSE,并使用 JADE 构建多 Agent 系统。此后,他又使用 OntoBuilder 构建购物 Agent,尝试让系统自动在不同网站上填写商品搜索和订单,并通过本体匹配理解不同网站的数据结构。
Haggai Roitman 提到,2024 至 2026 年之所以非同寻常,在于将以下的技术路线汇合到了一起:LLM 提供语言理解与生成能力,强化学习负责推理与对齐,MCP 负责标准化工具调用,编排框架则负责将这些能力组织为可运行的系统。