微信Agent真的要来了。
微信开放平台发布了这样一条关于微信AI开发者指引的内容。
指引称,为给用户提供更智能的交互体验,帮助用户更敏捷地发现并使用小程序服务,微信开放平台在充分尊重开发者权益和自主选择的基础上,为开发者提供便捷接入微信AI生态的能力。
接入后,小程序将有机会被微信AI推荐和调用。未完成接入的小程序,将无法被微信AI调用。
平台提供了两种接入模式。自动模式,授权平台提审时读取小程序源码,无需投入额外开发。开发模式,开发者可基于小程序业务特性,自主个性化开发。
同一天,美团官宣率先接入微信AI生态。作为首批内测团队,美团此前已与微信团队联合开发并测试接入。未来,用户可通过微信AI调用美团外卖等本地生活服务。
携程、同程等生活服务平台也先后宣布接入微信。
早在几天前,腾讯客服就表示,微信正在与华为、小米、荣耀、OPPO、vivo 等手机厂商合作推出A2A助手能力,目前已有多家厂商完成接入。
用户可以通过对应手机系统的AI助手发起微信音视频通话或向指定好友发送消息。
这其实不是第一次有关微信AI的消息了。早在今年3月,就有外媒表示,腾讯在微信内部推进一项高度保密的AI Agent项目。
6月2日,外媒发布消息称,腾讯正在测试微信内置AI Agent原型,最快将于本月启动合规审批流程。报道发布当天,腾讯股价收盘上涨10.5%,单日市值增加超过3000亿港元,创下自2021年1月以来最大单日涨幅。
微信AI,或许就是腾讯AI下半场的终极答案。
01
微信AI的轮廓
看过早期演示的人士透露,用户可以在微信主界面向右滑动,调出AI Agent的对话窗口。用户输入指令后,Agent会自动调用微信生态里的小程序,完成筛选、下单、预订这类任务。
比如你说“帮我点一杯30元以内、不太甜、附近能自取的咖啡”,Agent就会自动调用微信里的小程序,帮你筛选咖啡店、匹配口味和价格,甚至完成下单流程。
光听描述,它和豆包、千问这些AI聊天机器人没什么区别。
但这里面特殊的地方在于,微信AI拥有整个微信生态的调度权。
腾讯在2025年年报中明确提到,目标是在微信生态内建设下一代Agentic services,把小程序、内容、社交和支付能力连接起来。截至2026年3月31日,微信及 WeChat 合并月活达14.32亿。
也就是说,微信AI一旦上线,不管是好是坏,它都注定是一个超级应用。
微信里有数百万个小程序,覆盖打车、外卖、订票、买菜等日常生活场景。国内头部互联网服务几乎都在这一生态中设有小程序入口。
微信AI的核心能力,就是让AI能够调用这些小程序里的服务和交易能力,完成从认知到决策再到执行的完整闭环。
那它要怎么做呢?
首先是理解用户意图。用户说“帮我订个餐厅”,在家庭群里说和在工作群里说,意思完全不同。
谁在参与、谁能拍板、预算多少、有什么忌口、任务进行到了哪一步,这些都是Agent需要理解的上下文。难点在于微信里的任务天然跨越时间,家庭群讨论暑假的对话可能断断续续持续好几天。
然后是调用工具。
Agent需要动手,用搜一搜查信息,用小程序完成查询和比价,用微信支付完成交易,用服务通知把结果反馈给用户。
根据QuestMobile《2026全景生态流量春季报告》,小程序日活已超过9亿,覆盖几百个细分领域。
现在工具箱足够大了,问题是微信AI用得明白吗?
腾讯在3月18日发布的论文中透露了一些技术细节。微信团队开发了 UI-Oceanus,这是一个专门为小程序生态设计的世界模型。它的作用是预测操作结果。Agent找到了按钮,但点下去会发生什么?页面会跳转到哪里?会弹出什么窗口?支付流程会不会启动?
人类操作APP的时候对这些有直觉,Agent没有这种直觉,所以它必须得从数据里学。
游戏AI学的是“按下这个键角色会怎么动”,小程序的世界模型学的是“点这个按钮页面会怎么变”。
直接在真实小程序环境里训练太慢、太不稳定,所以 UI-Oceanus 自动模拟操作和页面变化,生成了500万样本。这让Agent可以在虚拟环境里学会操作小程序,然后再迁移到真实场景。
还有成本问题。14亿月活的入口如果每个场景都触发推理,成本是天文数字。腾讯需要在基础任务用小模型,复杂任务调用强模型之间做平衡。这种多模型调度的能力,既要保证效果,又要控制成本。
最后是生态协调。
微信里的小程序太多了,服务质量、接口稳定性、商家配合度、支付流程、推荐排序、利益分配,每一项单拎出来都可以讲很久。
AI Agent要替用户办事,就得真的办成,不能嘴上答应得特别丝滑,结果点单点到半路开始迷路。
所以微信AI其实是一个非常复杂的工程,它要面对各种各样的复杂场景。它还需要理解自然语言,需要调用小程序,需要处理支付,需要管理上下文,需要协调生态。
微信AI的轮廓清晰,只不过这个产品会比我们想象中要大得多。
02
为什么微信最适合承接这个 Agent
上下文越丰富,AI就越能理解你的真实意图,做出的决策也就越准确。
而微信刚好是腾讯最大的上下文容器。
微信有关系链,14亿用户在微信里的社交关系、聊天记录、群组对话,这些都是上下文。微信有小程序,数百万个小程序覆盖的服务场景,这些也是上下文。
微信有支付,用户的消费习惯、支付记录、交易偏好,这些还是上下文。
微信有内容,公众号、视频号、朋友圈里的信息流,这些同样是上下文。
前一阵,腾讯推出了很多AI产品,比如元宝、ima、WorkBuddy、Marvis,他们看似相互独立。实际上,它们都是在为微信AI积累能力。
这背后是腾讯内部一套叫做Co-Design的机制。
简单来说,Co-Design就是产品团队和模型团队一起设计、一起优化。
传统做法是,模型团队先把模型训练好,然后扔给产品团队去用。产品团队发现问题了,再反馈回来,模型团队再调整。
这个过程很慢,而且经常出现“模型很强但产品不好用”的情况。
Co-Design的做法不一样。元宝团队会告诉混元团队,用户在真实场景里到底怎么提问、会遇到什么问题。混元团队会根据这些真实反馈,专门优化模型的某些能力。
优化完了,元宝团队马上拿去测试,发现新问题,再继续调整。
这个过程是双向并且同步的。产品给模型提供真实数据和反馈,模型给产品提供更强的能力。
为什么这么做有用?因为 LLM 时代和过去的AI最本质的区别就是泛化性。
在LLM之前,做翻译产品只需要把翻译数据做好,做围棋程序只需要把围棋数据准备好。
但今天情况不一样了,哪怕你只是想做一个Coding Agent,你也得要模型有聊天能力、搜索能力、指令遵循能力、推理能力。所以最终,它就变成了一个非常复杂的交叉学科问题。
腾讯和元宝的Co-Design,就是为了让混元模型产生很强的聊天和搜索能力。这样的能力又可以被迁移到 ima、WorkBuddy 等其他产品。一个产品训练出来的能力,可以让其他产品也变得更好用。
具体来说,元宝处理的是真实世界的Prompt distribution。用户在元宝里问的问题都是比较模糊的,可能就一两句话,会不停追问。
这些场景训练出来的多轮对话能力、意图理解能力,可以直接迁移到微信AI处理群聊任务时的上下文理解。
WorkBuddy积累的是办公协作场景的数据。
它理解文档结构、会议纪要、任务分配这些企业场景的语义。这些能力可以让微信AI在处理任务时,知道如何提取关键信息、识别决策节点。
ima沉淀的是搜索能力。它训练模型如何把模糊的查询意图转化为精确的搜索策略,如何从海量的结果当中,去筛选有效的信息。这些能力可以让微信AI在调用小程序前,先做一轮信息筛选和意图澄清,这样微信AI在调用的时候,就不会把可能的小程序都调用一遍进而浪费时间和token,而是会只调用少数用得上的小程序。
Marvis训练的是任务拆解和工具调度能力。
Marvis把用户的指令,拆解成多个子任务,调度不同的Agent去操控文件、系统、应用。这套任务编排和多Agent协同的能力,可以让微信AI在面对“帮我订咖啡然后通知同事”这类跨场景任务时,知道如何串联小程序调用、支付流程和消息通知。
这些产品提供不同的数据,但这些数据之间可以相互扩散、相互迁移,形成一个像网络一样的体系。一个产品训练出来的数据,可以通过预训练和后训练的泛化机制,提升另一个产品的表现。
微信AI现在正在一个AI的网络中心。
它不需要从零开始,它可以直接调用这些已经被验证过的能力。
更重要的是,微信本身就是一个完整的生态。有关系链、有小程序、有微信支付的交易闭环、还有公众号和视频号的内容生态。这些都是其他Agent产品没有的。
03
微信AI的舞台有多大?
这一切的一切,目前都由A2A来实现。
A2A全称是 Agent-to-Agent,中文叫“智能体到智能体”。
它是一个开放协议,规定不同厂商的AI智能体之间如何通信、如何调用能力、如何保障安全。与之对应的是 GUIAgent路线,也就是让AI像人一样通过“读屏”来识别界面,再通过“模拟点击”去操作微信。
腾讯选择A2A,而不是GUI,这个决策背后其实是有深度考量的。
5月的腾讯 Q1财报电话会上,有分析师问腾讯总裁刘炽平,“如何看待来自操作系统层面智能体的长期潜力或潜在颠覆,包括来自 iOS、Android 或手机厂商的智能体”。
刘炽平回答说,“从操作系统的角度来看,这里面混了几种不同的东西。有真正的操作系统,如 iOS 和 Android,然后还有那些试图假装自己是操作系统的应用程序。如果你是 iOS 或 Android 这样的操作系统,你希望确保生态系统得到良好保护和精心策划,并给予应用程序合理的权限,你可以拥有一个试图为用户提供服务的智能体,但你需要获得不同应用程序的许可。否则,作为操作系统,你本质上是在掠夺不同的应用程序,这不是管理操作系统的最佳方式。”
刘炽平的意思是,用操作系统的Agent来操控应用是可以的,但不能不获得应用程序的授权,否则就是对应用的掠夺。
用更直白一点的话来说,腾讯不接受GUI agent,只接受A2A。
过去两年,手机厂商曾尝试用GUI来从外部打通微信。
荣耀YOYO宣传过“一句话发微信红包”,小米智能家居产品的卖点是“小爱自动打通微信电话”。当你对手机说“给 XX 发个10块钱红包”时,AI助手在后台执行的是:解锁、点击微信图标、搜索 XX、点击加号、点击红包、输入10、调起支付。
这一行为很快被微信封杀。
2025年4月,微信安全中心发布公告,禁止第三方工具绕过微信安全技术措施,违法违规获取或利用微信终端用户数据。
字节的豆包手机也遭遇同样命运。
2025年12月,豆包手机助手技术预览版发布,核心卖点是“AI 直接跨应用操作”。很快,大量用户反馈微信账号被强制下线,系统提示登录环境异常。腾讯方面表示,这触发了微信既有的安全风控策略。
在微信AI上,荣耀是第一个完成微信A2A适配的品牌。目前荣耀部分机型已经支持该功能,用户可以唤醒 YOYO 直接语音下达指令,比如语音发微信消息、拨打微信语音、视频通话。
一位腾讯内部人士评价称,任何手机 agent,如果不能调用微信,就不算一个真正的系统级 Agent。腾讯这个口子一定会开,只是时间问题。
微信愿意通过A2A这类受控协议,让手机厂商Agent有限调用微信能力,但不会放任外部Agent靠读屏、模拟点击进入微信。
这说明归根结底,腾讯还是要掌握微信生态的调用权和规则制定权。
说到豆包,这里就引出了另一个问题,微信AI会收费吗?
豆包月活3.45亿,最近都传出要开始对一些功能进行收费,微信14亿月活,压力只会更大。
更何况,微信AI要面对这么多人,每个场景都触发推理,成本一定是天文数字。
此前腾讯拟投资DeepSeek的这100亿,就可以解释为模型供给和成本底座。
腾讯自研的混元大模型需要技术盟友,微信生态更需要低成本推理能力。DeepSeek 的低成本训练路线,恰好符合微信AI这种海量用户场景的需求。
6月2日,腾讯还宣布,腾讯云平台上的DeepSeek-V4系列调用价格全面持平 DeepSeek 官方售价,用户无需承担任何云平台溢价。
这一切线索都在暗示,腾讯要和 DeepSeek 深度绑定,而微信 Agent,很可能就是绑定后的第一份答案。
基础任务用小模型,成本低、速度快。复杂任务调用强模型,效果好、准确率高。这种多模型调度的能力,既要保证效果,又要控制成本。
作为一名微信的用户,如果微信AI能够真正做到一次把任务做成,我是愿意为这个能力付费的。
比如帮我订一张机票,帮我找一家餐厅,以及帮我想起这个在我朋友圈列表里躺了好久,我还和他没有任何聊天记录的人是谁。我觉得这些功能都很有价值。
更重要的是,微信AI面对的不只是个人用户,还有企业用户。企业自动化、智能客服、智能营销,这些场景对AI的需求更强,付费意愿也更高。
微信AI的舞台其实很大。具体有多大呢?答案是,微信生态有多大,微信AI的舞台就有多大。
腾讯首席AI科学家、混元大模型负责人姚顺雨在6月5日的腾讯云AI产业应用大会上,给出了一个更长远的判断。
他认为,AI是一个长期游戏,而非短期窗口。他批评了硅谷部分从业者“赶快赚两年钱退休”的心态,强调当前就像“70年代的PC”,未来将不断涌现新的产品机会。
这个判断,恰恰解释了腾讯为什么愿意在微信 AI 上投入如此大的成本。姚顺雨特别强调,“实用性价值大于刷榜价值”。他认为,AI 方法论已经高度成熟,真正的难点在于寻找“好问题”去解决,而不是追求排行榜上的数字。
微信AI要解决的,正是这样的“好问题”。
如何让这14亿的用户,在日常生活中感受到AI带来的价值。?
这里没有炫技,更没有刷榜,只有解决了这个好问题,腾讯才算真正进入了AI的下半场。