微信agent发出“英雄令”，互联网半壁江山响应,微信的英雄

微信Agent真的要来了。

微信开放平台发布了这样一条关于微信AI开发者指引的内容。

指引称，为给用户提供更智能的交互体验，帮助用户更敏捷地发现并使用小程序服务，微信开放平台在充分尊重开发者权益和自主选择的基础上，为开发者提供便捷接入微信AI生态的能力。

接入后，小程序将有机会被微信AI推荐和调用。未完成接入的小程序，将无法被微信AI调用。

平台提供了两种接入模式。自动模式，授权平台提审时读取小程序源码，无需投入额外开发。开发模式，开发者可基于小程序业务特性，自主个性化开发。

同一天，美团官宣率先接入微信AI生态。作为首批内测团队，美团此前已与微信团队联合开发并测试接入。未来，用户可通过微信AI调用美团外卖等本地生活服务。

携程、同程等生活服务平台也先后宣布接入微信。

早在几天前，腾讯客服就表示，微信正在与华为、小米、荣耀、OPPO、vivo 等手机厂商合作推出A2A助手能力，目前已有多家厂商完成接入。

用户可以通过对应手机系统的AI助手发起微信音视频通话或向指定好友发送消息。

这其实不是第一次有关微信AI的消息了。早在今年3月，就有外媒表示，腾讯在微信内部推进一项高度保密的AI Agent项目。

6月2日，外媒发布消息称，腾讯正在测试微信内置AI Agent原型，最快将于本月启动合规审批流程。报道发布当天，腾讯股价收盘上涨10.5%，单日市值增加超过3000亿港元，创下自2021年1月以来最大单日涨幅。

微信AI，或许就是腾讯AI下半场的终极答案。

微信AI的轮廓

看过早期演示的人士透露，用户可以在微信主界面向右滑动，调出AI Agent的对话窗口。用户输入指令后，Agent会自动调用微信生态里的小程序，完成筛选、下单、预订这类任务。

比如你说“帮我点一杯30元以内、不太甜、附近能自取的咖啡”，Agent就会自动调用微信里的小程序，帮你筛选咖啡店、匹配口味和价格，甚至完成下单流程。

光听描述，它和豆包、千问这些AI聊天机器人没什么区别。

但这里面特殊的地方在于，微信AI拥有整个微信生态的调度权。

腾讯在2025年年报中明确提到，目标是在微信生态内建设下一代Agentic services，把小程序、内容、社交和支付能力连接起来。截至2026年3月31日，微信及 WeChat 合并月活达14.32亿。

也就是说，微信AI一旦上线，不管是好是坏，它都注定是一个超级应用。

微信里有数百万个小程序，覆盖打车、外卖、订票、买菜等日常生活场景。国内头部互联网服务几乎都在这一生态中设有小程序入口。

微信AI的核心能力，就是让AI能够调用这些小程序里的服务和交易能力，完成从认知到决策再到执行的完整闭环。

那它要怎么做呢？

首先是理解用户意图。用户说“帮我订个餐厅”，在家庭群里说和在工作群里说，意思完全不同。

谁在参与、谁能拍板、预算多少、有什么忌口、任务进行到了哪一步，这些都是Agent需要理解的上下文。难点在于微信里的任务天然跨越时间，家庭群讨论暑假的对话可能断断续续持续好几天。

然后是调用工具。

Agent需要动手，用搜一搜查信息，用小程序完成查询和比价，用微信支付完成交易，用服务通知把结果反馈给用户。

根据QuestMobile《2026全景生态流量春季报告》，小程序日活已超过9亿，覆盖几百个细分领域。

现在工具箱足够大了，问题是微信AI用得明白吗？

腾讯在3月18日发布的论文中透露了一些技术细节。微信团队开发了 UI-Oceanus，这是一个专门为小程序生态设计的世界模型。它的作用是预测操作结果。Agent找到了按钮，但点下去会发生什么？页面会跳转到哪里？会弹出什么窗口？支付流程会不会启动？

人类操作APP的时候对这些有直觉，Agent没有这种直觉，所以它必须得从数据里学。

游戏AI学的是“按下这个键角色会怎么动”，小程序的世界模型学的是“点这个按钮页面会怎么变”。

直接在真实小程序环境里训练太慢、太不稳定，所以 UI-Oceanus 自动模拟操作和页面变化，生成了500万样本。这让Agent可以在虚拟环境里学会操作小程序，然后再迁移到真实场景。

还有成本问题。14亿月活的入口如果每个场景都触发推理，成本是天文数字。腾讯需要在基础任务用小模型，复杂任务调用强模型之间做平衡。这种多模型调度的能力，既要保证效果，又要控制成本。

最后是生态协调。

微信里的小程序太多了，服务质量、接口稳定性、商家配合度、支付流程、推荐排序、利益分配，每一项单拎出来都可以讲很久。

AI Agent要替用户办事，就得真的办成，不能嘴上答应得特别丝滑，结果点单点到半路开始迷路。

所以微信AI其实是一个非常复杂的工程，它要面对各种各样的复杂场景。它还需要理解自然语言，需要调用小程序，需要处理支付，需要管理上下文，需要协调生态。

微信AI的轮廓清晰，只不过这个产品会比我们想象中要大得多。

为什么微信最适合承接这个 Agent

上下文越丰富，AI就越能理解你的真实意图，做出的决策也就越准确。

而微信刚好是腾讯最大的上下文容器。

微信有关系链，14亿用户在微信里的社交关系、聊天记录、群组对话，这些都是上下文。微信有小程序，数百万个小程序覆盖的服务场景，这些也是上下文。

微信有支付，用户的消费习惯、支付记录、交易偏好，这些还是上下文。

微信有内容，公众号、视频号、朋友圈里的信息流，这些同样是上下文。

前一阵，腾讯推出了很多AI产品，比如元宝、ima、WorkBuddy、Marvis，他们看似相互独立。实际上，它们都是在为微信AI积累能力。

这背后是腾讯内部一套叫做Co-Design的机制。

简单来说，Co-Design就是产品团队和模型团队一起设计、一起优化。

传统做法是，模型团队先把模型训练好，然后扔给产品团队去用。产品团队发现问题了，再反馈回来，模型团队再调整。

这个过程很慢，而且经常出现“模型很强但产品不好用”的情况。

Co-Design的做法不一样。元宝团队会告诉混元团队，用户在真实场景里到底怎么提问、会遇到什么问题。混元团队会根据这些真实反馈，专门优化模型的某些能力。

优化完了，元宝团队马上拿去测试，发现新问题，再继续调整。

这个过程是双向并且同步的。产品给模型提供真实数据和反馈，模型给产品提供更强的能力。

为什么这么做有用？因为 LLM 时代和过去的AI最本质的区别就是泛化性。

在LLM之前，做翻译产品只需要把翻译数据做好，做围棋程序只需要把围棋数据准备好。

但今天情况不一样了，哪怕你只是想做一个Coding Agent，你也得要模型有聊天能力、搜索能力、指令遵循能力、推理能力。所以最终，它就变成了一个非常复杂的交叉学科问题。

腾讯和元宝的Co-Design，就是为了让混元模型产生很强的聊天和搜索能力。这样的能力又可以被迁移到 ima、WorkBuddy 等其他产品。一个产品训练出来的能力，可以让其他产品也变得更好用。

具体来说，元宝处理的是真实世界的Prompt distribution。用户在元宝里问的问题都是比较模糊的，可能就一两句话，会不停追问。

这些场景训练出来的多轮对话能力、意图理解能力，可以直接迁移到微信AI处理群聊任务时的上下文理解。

WorkBuddy积累的是办公协作场景的数据。

它理解文档结构、会议纪要、任务分配这些企业场景的语义。这些能力可以让微信AI在处理任务时，知道如何提取关键信息、识别决策节点。

ima沉淀的是搜索能力。它训练模型如何把模糊的查询意图转化为精确的搜索策略，如何从海量的结果当中，去筛选有效的信息。这些能力可以让微信AI在调用小程序前，先做一轮信息筛选和意图澄清，这样微信AI在调用的时候，就不会把可能的小程序都调用一遍进而浪费时间和token，而是会只调用少数用得上的小程序。

Marvis训练的是任务拆解和工具调度能力。

Marvis把用户的指令，拆解成多个子任务，调度不同的Agent去操控文件、系统、应用。这套任务编排和多Agent协同的能力，可以让微信AI在面对“帮我订咖啡然后通知同事”这类跨场景任务时，知道如何串联小程序调用、支付流程和消息通知。

这些产品提供不同的数据，但这些数据之间可以相互扩散、相互迁移，形成一个像网络一样的体系。一个产品训练出来的数据，可以通过预训练和后训练的泛化机制，提升另一个产品的表现。

微信AI现在正在一个AI的网络中心。

它不需要从零开始，它可以直接调用这些已经被验证过的能力。

更重要的是，微信本身就是一个完整的生态。有关系链、有小程序、有微信支付的交易闭环、还有公众号和视频号的内容生态。这些都是其他Agent产品没有的。

微信AI的舞台有多大？

这一切的一切，目前都由A2A来实现。

A2A全称是 Agent-to-Agent，中文叫“智能体到智能体”。

它是一个开放协议，规定不同厂商的AI智能体之间如何通信、如何调用能力、如何保障安全。与之对应的是 GUIAgent路线，也就是让AI像人一样通过“读屏”来识别界面，再通过“模拟点击”去操作微信。

腾讯选择A2A，而不是GUI，这个决策背后其实是有深度考量的。

5月的腾讯 Q1财报电话会上，有分析师问腾讯总裁刘炽平，“如何看待来自操作系统层面智能体的长期潜力或潜在颠覆，包括来自 iOS、Android 或手机厂商的智能体”。

刘炽平回答说，“从操作系统的角度来看，这里面混了几种不同的东西。有真正的操作系统，如 iOS 和 Android，然后还有那些试图假装自己是操作系统的应用程序。如果你是 iOS 或 Android 这样的操作系统，你希望确保生态系统得到良好保护和精心策划，并给予应用程序合理的权限，你可以拥有一个试图为用户提供服务的智能体，但你需要获得不同应用程序的许可。否则，作为操作系统，你本质上是在掠夺不同的应用程序，这不是管理操作系统的最佳方式。”

刘炽平的意思是，用操作系统的Agent来操控应用是可以的，但不能不获得应用程序的授权，否则就是对应用的掠夺。

用更直白一点的话来说，腾讯不接受GUI agent，只接受A2A。

过去两年，手机厂商曾尝试用GUI来从外部打通微信。

荣耀YOYO宣传过“一句话发微信红包”，小米智能家居产品的卖点是“小爱自动打通微信电话”。当你对手机说“给 XX 发个10块钱红包”时，AI助手在后台执行的是：解锁、点击微信图标、搜索 XX、点击加号、点击红包、输入10、调起支付。

这一行为很快被微信封杀。

2025年4月，微信安全中心发布公告，禁止第三方工具绕过微信安全技术措施，违法违规获取或利用微信终端用户数据。

字节的豆包手机也遭遇同样命运。

2025年12月，豆包手机助手技术预览版发布，核心卖点是“AI 直接跨应用操作”。很快，大量用户反馈微信账号被强制下线，系统提示登录环境异常。腾讯方面表示，这触发了微信既有的安全风控策略。

在微信AI上，荣耀是第一个完成微信A2A适配的品牌。目前荣耀部分机型已经支持该功能，用户可以唤醒 YOYO 直接语音下达指令，比如语音发微信消息、拨打微信语音、视频通话。

一位腾讯内部人士评价称，任何手机 agent，如果不能调用微信，就不算一个真正的系统级 Agent。腾讯这个口子一定会开，只是时间问题。

微信愿意通过A2A这类受控协议，让手机厂商Agent有限调用微信能力，但不会放任外部Agent靠读屏、模拟点击进入微信。

这说明归根结底，腾讯还是要掌握微信生态的调用权和规则制定权。