阻挡豆包前进的“围墙”,被一只名为“龙虾”的开源力量推倒

文章简介
文章探讨了AI Agent如何重塑人机交互,指出传统APP形态将向后台服务转型。行业曾围绕GUI模拟与API协同两条路线博弈,但商业利益和安全问题形成壁垒。随着MCP协议普及和OpenClaw等开源框架兴起,超级APP开始有限开放。端侧AI技术成熟将缓解隐私担忧,未来三年可能经历双轨并行、跨应用协同到“伴随态AI”成为默认交互的演进,最终APP将隐身为AI调用的后台插件。

AI Agent 如何推倒“围墙”:从豆包受阻到 OpenClaw 被拥抱的范式转变

近日,英伟达创始人黄仁勋公开表示,AI Agent 将成为未来人机交互的核心方向,传统软件与 APP 的交互模式将迎来根本性变革。

“未来几年,传统的软件和 APP 形态或将消失,AI Agent 极有可能成为主流。”

然而,业界关注的焦点早已不是“是否改变”,而是“如何改变”。过去一年,两条技术路线竞争激烈:一条是 GUI 模拟,即让 AI 像人类一样观看屏幕并点击按钮,以字节跳动的豆包手机助手为代表;另一条是 API 协同,即让 AI 通过标准接口调用 APP 功能,以谷歌的 AppFunctions 和小米的 miclaw 为代表。前者因安全隐患备受争议,后者则面临推广阻力,行业陷入僵局。

但 2026 年 3 月,一个关键转折点出现——阻挡豆包前进的“围墙”,被一只名为“龙虾”的开源力量推倒。

这只“龙虾”即 OpenClaw,一个开源的 PC 端多智能体框架。它的迅速崛起改变了行业规则:此前,各大超级 APP 以安全为由将豆包拒之门外;如今,它们却争相向 OpenClaw 开放接口。从飞书、QQ 到企业微信、钉钉,主流应用都在加速接入。

核心问题随之浮现:同样是实现 AI 自动化操作,为何豆包遭遇围堵,而“龙虾”却广受接纳?

答案或许比想象中更为反直觉。

一、豆包撞上的“围墙”:本质是商业壁垒,而非技术障碍

让我们将时间拨回 2025 年 12 月。当时,字节跳动与中兴合作发布了豆包手机助手技术预览版,搭载于努比亚 M153 工程样机。它首次向用户展示了“真 AI 手机”的潜力:仅需一句指令,AI 便能自动完成跨平台外卖比价、下单、订单截图转发等操作,甚至能规避弹窗干扰。

这标志着 GUI 模拟路线的巅峰——AI 能够像人类一样操作手机,理论上可控制任何 APP。

然而,“围墙”随即筑起。

微信限制豆包自动发送消息,提示“登录环境异常”;美团、淘宝限制其比价下单功能,导致无法正常获取商品价格;高德地图也限制了部分自动操作权限。字节跳动遭遇集体抵制。腾讯创始人马化腾在内部讲话中更是直接批评:“极其不安全、不负责任。”

但矛盾之处在于,OpenClaw 上线后,同样是这些 APP,态度却发生了 180 度转变。

由此可见,问题的核心并非“安全”。这堵“围墙”的真实材料是 商业利益

APP 的核心商业模式在于流量入口。用户在美团多停留一秒,平台就多一秒机会推送广告、销售会员或引导消费。AI 若绕过界面直接下单,等同于截断了入口——美团的广告逻辑、推荐算法及商家竞价排名体系都将失效。

这并非技术问题,而是一场 关于谁掌握用户界面、谁就掌控价值分配的零和博弈。豆包试图通过 GUI 模拟强行“拆墙”,结果反被“围墙”压制。

二、MCP 的崛起:为 AI 世界建立“USB-C”标准

然而,GUI 路线真的错了吗?未必。它或许只是生不逢时。

2024 年底,Anthropic 做了一件改写行业剧本的事:发布了 MCP 协议(Model Context Protocol)

你可以将其理解为“AI 世界的 USB-C 接口”。此前,若想调用某个 APP 功能,AI 需编写一套定制代码。MCP 出现后,只要 APP 接入该标准协议,AI 便能以统一方式调用其功能。

该协议迅速爆发。截至 2026 年 3 月,已有超过 10,000 个公共 MCP 服务器在运行,ChatGPT、Claude、Gemini 等主流模型均已支持,月下载量达 700 万次。

但繁荣背后,问题也随之显现:

第一,安全设计存在滞后性。 MCP 早期版本甚至缺乏认证机制,任何人均可调用服务器。CoSAI 于今年 1 月发布的白皮书中,一口气列举了近 40 种潜在威胁,包括工具投毒、资源污染、影子服务器攻击等。正如 AI 安全专家 Sebastian Wallkötter 所言:“MCP 将一个非确定性系统——大模型——置于安全决策的核心,传统防火墙难以有效防御。”

第二,模型易受欺骗。 提示词注入攻击至今尚无完美解决方案。攻击者只需在数据源中隐藏一句“忽略之前指令”,AI 便可能照做。Wallkötter 指出,这类似于早期的 SQL 注入攻击,解决方案或许在于将指令与数据分离——但该方案尚未实现。

第三,工具过载导致 AI 困惑。 部分开发者过于热情,挂载了 30 至 40 个 MCP 服务器,结果模型刚启动,40% 的上下文窗口已被工具定义占满。行业共识认为,30 个左右是工具数量的上限。

因此,MCP 并非万能解药。它只是让“API 协同”成为可能,但距离“可靠”仍有差距。不过,它确实解决了一个核心问题:为 APP 厂商提供了一个“体面”的开放方式。

三、转折点:“龙虾”如何撬动行业共识

OpenClaw 的爆发,恰好卡在一个微妙的时机。

这款开源的 PC 端多智能体框架,上线 100 天便风靡全球。其核心逻辑在于:提供一个智能体框架,让 AI 自主寻找解决方案,而非强行模拟点击操作。

关键在于,它证明了 用户愿意让渡部分数据控制权,以换取更先进的体验。成千上万的用户涌入,用实际行动向行业表明:只要你能高效办事,数据权限可以协商。

这让超级 APP 陷入了“不患寡而患不均”的困境。

过去抵制豆包,理由是安全。如今 OpenClaw 崛起,若不接入,竞争对手接入后用户可能流失。于是,飞书、QQ、企业微信、钉钉相继接入。挡在豆包前面的那堵墙,被一只“龙虾”撬开了一道缝隙。

这不是技术的胜利,而是共识的转变。

当足够多的用户用脚投票,安全就不再是拒绝的理由,而变成了必须解决的问题。

四、手机厂商的审慎:等待一张“通行证”

“围墙”松动,手机厂商迅速嗅到风向。

2 月底,三星发布 Galaxy S26,搭载谷歌 Gemini,支持一键点外卖、叫车等功能。更引人注目的是,三星引入了 Perplexity 作为系统级 AI 智能体,与 Bixby 共存,用户可通过“Hey, Plex”唤醒。三星将其称为“多智能体协同生态系统”——一个开放框架,允许不同 AI 在同一设备上协同工作。

3 月,小米启动 miclaw 封闭测试。雷军连发微博,称其为“手机龙虾”。miclaw 将手机系统能力封装为 50 多项工具,支持 MCP 客户端,理论上可直接接入 PC 上的数千个 MCP 工具。

但小米为自己加了一道锁:当前版本代码中,未注册任何与支付、转账、下单相关的工具。

三星和谷歌也未完全放开。Gemini 在 S26 上仍采用“视觉识别 + AppFunctions”双轨制,GUI 方案虽已上线,但核心功能调用仍通过 API 进行。

苹果则更为保守。尽管向谷歌寻求了下一代基础模型(基于 Gemini 打造)的支持,但其重心仍是让 AI 调用自家软件,并未表现出让 AI 操控一切 APP 的开放姿态。

大家都在等待一张“通行证”——要么来自超级 APP 的默许,要么来自用户习惯的不可逆转变。

五、安全的技术解方:端侧 AI 的成熟

在这场博弈中,一个关键变量正在加速成熟:端侧 AI。

MWC 2026 传递出明确信号:端侧 AI 正从“概念”走向“量产”。高通发布骁龙可穿戴平台至尊版,首次在可穿戴芯片中集成独立 NPU,支持十亿参数级模型在本地运行。

这对隐私保护至关重要。

过去,若授权 AI 读取微信数据,数据需上传至云端,用户难免担忧。如今,90 亿参数的模型已可在手机本地实现“全双工”多模态交互,所有数据无需离开设备。

OPPO 和联发科在 MWC 上展示了相关成果:端侧 AI 翻译在无网络环境下仍能高质量输出;端侧全模态 Omni 模型可实时理解语音、视频和文本。

端侧 AI 补足了 API 路线的最大短板。 以往 API 调用依赖云端理解用户意图,如今意图理解在本地完成,隐私风险大幅降低。

六、未来三年演进路线图

基于当前技术进展与商业博弈,可勾勒出未来三年的发展阶段:

第一阶段:2026年-2027年,双轨并行

技术特征:MCP生态爆发,10000+公共服务器运行;端侧AI开始铺开,旗舰芯片支持百亿级模型本地推理。

商业博弈:超级APP有限开放查询类接口(查航班、查餐厅、预估费用),支付仍锁死。手机厂商小心翼翼,miclaw们不做支付下单,等通行证。

你能做什么:对AI说“查周五去上海的机票”,AI列选项,下单得自己点。说“附近有啥好吃的”,AI筛餐厅,付款自己来。

关键变量:OpenClaw的全球用户规模。如果用户习惯持续迁移,超级APP的议价能力会被稀释。

第二阶段:2027年-2028年,跨应用协同跑通

技术特征:多智能体协同框架成熟,LangGraph类技术能在手机端稳定运行;MCP写操作准确率从当前的65%-75%提升到90%以上;意图框架成为系统级能力。

商业博弈:分润机制跑通。OpenAI与Etsy的合作模式被复制——智能体带来的增量订单,APP厂商分一小笔技术服务费。APP从“被替代”变成“被赋能”。

你能做什么:说“下周去深圳出差三天,住南山,预算五百以内”。AI自动订票、订酒店、约车、查天气、标记日历。你只在最后点一下“确认支付”。

第三阶段:2028年以后,“伴随态AI”成为默认交互

技术特征:AI不再等你下令,而是持续感知状态。你在微信里约饭,AI弹出提示:“根据你们口味,推荐附近三家粤菜馆,要订吗?”

商业格局:APP的UI层大幅简化。很多应用不再需要复杂前端,只保留后台服务和API接口。你打开手机,桌面上可能只剩一个对话框和几个常用工具。

隐私平衡:端侧为主、云端为辅成为主流。数据最小化原则写入系统底层,MCP加密通信+端侧本地处理,隐私问题获得技术解。

Canalys预测:全球AI手机出货占比将从2024年的16%升至2028年的54%。这不是小趋势,是主流化。

七、它只是“隐身”了

APP不会消失。它们只会从“用户界面”变成“AI的后台插件”。

过去我们以为,谁掌握入口谁赢。手机厂商和APP厂商打了十几年,用户是战场。

现在事情变了。 真正的赢家,不是“掌握入口”的那一方,而是让用户不再需要关心“入口在哪”的那一方。

老黄说AI是新的基础设施。基础设施的意思是:你不用知道电从哪来,水从哪来,你只知道打开龙头就有水。

未来的手机也是这样。你不用知道是美团还是饿了么给你送的饭,你只知道:我说饿了,饭来了。

那堵挡住豆包的墙,不是被谁拆掉的。

是用户用脚投票,让墙自己觉得——再挡着,就没意义了。

评论

发表评论

登录后可发表评论并对评论点赞。

去登录
暂无评论,快来发表第一条评论吧!