群发资讯网

OpenClaw,正在重写人形机器人的竞争逻辑?

OpenClaw有没有颠覆打工人的工作方式不知道,但具身智能好像快要被颠覆了。最近,最近网上流传许多这样的视频,一些不满

OpenClaw有没有颠覆打工人的工作方式不知道,但具身智能好像快要被颠覆了。

最近,最近网上流传许多这样的视频,一些不满足“赛博养虾”的网友,给OpenClaw接上摄像头和机械臂。这一接不要紧,接入之后大家发现,原来OpenClaw不仅能在电脑上干活,在现实中同样也是干活的一把好手。

比如有网友给OpenClaw配上了电脑,机械臂和摄像头,他们没有为这个任务重新写一套程序,也没有单独训练模型,只是对OpenClaw说:“把这些汽车零件分类。”

OpenClaw就完成了这些零件分拣。

这件事情对具身智能的冲击有多大呢?

这么说吧,就在不到一年前,这些能力在人形机器人公司都还是值得专门召开一场发布会,花费上百万美元在全世界进行吆喝的。

但现在,同样的能力,却被OpenClaw轻易实现了,甚至它都不是为具身智能专门准备的工具。

所以这件事情,怎么听都有些荒诞。

那么,OpenClaw到底给人形机器人带来了什么?在OpenClaw这么强的情况下,专门的具身大模型还有意义吗?机器人公司之前的工作有没有白费?为什么机器人公司辛苦好几年的工作,OpenClaw能轻易做到?

以及潮水退去之后,又有谁在裸泳?

当“养虾”养到机器人身上

我仍然记得,大概是去年(2025年)4月初,国内一家头部的人形机器人公司在北京郑重地举办了一场发布会,内容就是人形机器人开发平台。

当时,这个平台的核心亮点就是:仅凭语音指令,就能在工业场景中完成散乱零件的分拣,动作流畅、错误率低。

怎么样,这个描述是不是很熟悉,它和今天OpenClaw能做到的事情几乎一模一样。

区别只是在于,这家公司发布的这个平台是专门针对机器人的,它拆分了数十个场景,训练Agent,然后通过行为路径规划串联在一起,这里面包含了大量的工作。

当时,这个公司给这个平台的宣传口号是:人形机器人从表演走向干活、从实验室走进工厂最重要的一块拼图。而现在,OpenClaw似乎也轻易实现了类似的能力,但显然,OpenClaw没有经历过这些。

这就像什么呢?就像你和朋友一起去爬山,你精心准备、提前出发,花费大量时间,终于气喘吁吁地来到山顶时,你却发现,你的朋友坐着直升机,已经在这里等你多时了。

具体来看,OpenClaw还在更多的场景中都展现出了强大的泛化能力、决策和自我进化的能力。

比如在一个实验里,还有一段更生活化的测试。工作人员对机械臂说:“今天是元宵节,给我做点甜米酒汤圆。”

机械臂先停顿思考任务,随后开始执行:把汤倒进锅里,把汤圆放进去,等待水煮开。

中途工作人员还问:“能不能加点糖?”

机械臂反问:“黄糖还是桂花糖?”

得到“黄糖”的回答后,它把糖倒进了锅里。

此外还有各种各样的实验,比如有开发者把OpenClaw接入工业机械臂,让它根据自然语言指令完成抓取或搬运任务,系统甚至会自动生成控制机械臂的Python脚本。

除了机械臂,四足机器人也很快出现在各种“养虾”实验里。

在Reddit和X上流传的一些视频中,有开发者把OpenClaw接入机器狗,让它在环境中自主巡逻。

过去,这类机器人通常需要遥控操作,或者按照提前设计好的路线行动。但在这些实验中,没有操控,也没有提前规划的路线,机器狗根据摄像头看到的环境,自己判断、自己规划,比如绕开障碍物、或者在遇到新情况时重新规划路径。

而当这些实验开始出现在人形机器人身上时,事情就变得更有意思了。

比如在一个开源社区中,就有人发布了一套适用于OpenClaw的Unitree-robot技能。有了这个集成,开发者可以直接通过即时通讯软件控制宇树机器人,比如G1,甚至包括更大的H1,以及四足机器人GO1和GO2。

整个过程比想象中简单得多。开发者不需要打开复杂的图形界面,也不用手动调用SDK,只要在聊天窗口里发一句话:

“前进一米。”

“左转45度。”

机器人就会执行对应的动作。

这种控制甚至是双向的。OpenClaw可以从机器人搭载的立体相机中获取环境图像,再把截图直接发回聊天窗口,让开发者随时查看现场。如果再接入路径规划模块,系统还可以自动规划路线、避开障碍物。

同样,整个过程没有预设脚本,也没有提前规划好的动作路径。

开发者只是给出一个目标,剩下的事情就都交给了AI,它自己判断、自己规划。

一只小龙虾,能掀翻人形机器人吗?

我们从各种的演示视频中,看到了OpenClaw结合其他大模型表现出来的惊人能力。

放以前,足以成为许多人形机器人公司最骄傲的成果,放到现在也变得平平无奇。

因此,这不得不让人产生一个疑问:机器人行业花了这么多年,采集数据、训练模型、开发系统才实现的能力,还有价值吗?

答案当然是否定的。

这话得从头说起,一个机器人,除了本体之外,决策系统大致可以被拆为四层,从上往下分别是:

决策层(大脑):理解目标与任务拆解;

感知/表征层:识别环境、目标与空间状态;

行为组织层:把任务拆成技能和动作序列;

控制层(小脑):轨迹、伺服、避障、安全执行。

在这个框架下,OpenClaw 主要负责前面几层能力的调用、编排和衔接。至于机器人最后怎么动、动作能不能稳定落地,仍然依赖底层控制系统、运动学求解和执行链路。

因此,OpenClaw 并不是让机器人突然学会了运动,它反而更像是一个上层调度系统,把人的指令翻译成一连串可调用的能力。

这里真正值得注意的亮点其实有两个。

第一个,是OpenClaw改变了机器人获得这些能力的方式。

过去,很多能力并不是做不到,而是往往要为单一任务投入大量数据采集、专门训练和复杂的规则工程。

而现在,OpenClaw可以直接借助已经成熟的多模态模型、工具系统和模块化执行链路,把许多原本需要单独开发、单独训练的能力,变成了可以直接调用,和快速组合的能力。

结果就是,同样一个抓取、查找或巡检任务,开发效率更高,试错周期更短,整体成本也更低。

第二就是,OpenClaw让机器人开始具备一种过去很少真正建立起来的能力:对现实世界的持续记忆。

传统机器人更多是在“当下”工作。它看到什么,就对什么做出反应;任务结束后,对环境的理解也大多停留在那一刻。很多系统当然也能做地图、定位和任务状态保存,但它们通常并不会把“地点、物体、事件和时间”持续组织成一个可随时调用的统一记忆结构。

而现在,OpenClaw开始尝试把机器人感知到的重要对象、地点、事件和时间组织成可检索的时空语义记忆。

这意味着,机器人不再只是执行命令,而是在持续积累上下文。

一个人什么时候进入房间,一个物体被放在了哪里,一段行为发生在什么时间点,这些都可能被纳入后续搜索、判断和行动的依据。

当然,这并不等于它已经拥有了像人一样完整的世界理解,但至少说明,它开始具备一种面向现实世界的结构化记忆能力。

这件事的意义在于,机器人能力的边界正在从“完成一次任务”往“持续理解一个环境”延伸。(在同一环境或相似环境中,持续上下文会提升任务连续性和局部稳定性,但这并不等于系统已经获得了广义泛化能力。)

当然,OpenClaw能做到这些,并不是凭空产生的,其背后支持的有两个重要的原因。

第一个原因是,最近几年机器人本身的底层架构开始发生了变化。

过去,很多机器人系统更像一个个封闭的烟囱:感知是一套,规划是一套,控制又是一套,彼此连接复杂,开发门槛很高。很多能力虽然已经存在,但很难被灵活调用。

而现在,机器人系统正在变得越来越模块化、标准化。相机、机械臂、抓取模块、路径规划、底层控制接口,都在逐步变成可插拔、可组合的能力单元。

OpenClaw之所以看起来很强,不是因为它凭空创造了底层机器人能力,而是因为它可以站在一个已经逐渐标准化的执行栈之上,把这些能力重新组织起来。

第二个原因,是多模态大模型正在快速整合原来分散的能力。

过去,人形机器人如果要完成一个任务,往往要单独解决很多问题:文字理解、语音识别、图像识别、视频理解、目标检测、空间判断、任务拆解,常常要靠不同模块分别完成。

但现在,多模态大模型已经能同时处理文字、图像、语音、视频等不同信息,并把这些信息放进同一个上下文里统一理解。这意味着,机器人过去那些需要单独训练、单独接入的感知和理解能力,正在被更通用的基础模型逐步吸收。

这导致机器人上层智能的开发门槛被明显拉低了。而这就是OpenClaw的意义,它不是重新发明这些能力,而是把这些已经变强的通用能力,更高效地接进了机器人系统。

具身大模型,还有没有意义?

说到这里,就自然会延伸出一个更关键的问题:既然基础模型已经越来越强,单独做一个具身智能大模型,还有意义吗?

毕竟在此之前,很多人形机器人公司都曾高调宣布自研具身大模型,并把它视为公司最重要的战略核心,仿佛谁掌握了具身模型,谁就掌握了机器人的未来。

可现在看起来,通用基础模型正在迅速补齐理解、感知和任务编排能力,原来机器人公司花了很多年构建的部分上层能力,正在被更大的基础模型体系快速通用化。

答案是:有,而且依然重要。

原因在于,基础模型变强,主要改变的是机器人“理解世界”的能力;而具身模型真正决定的,是机器人“如何在物理世界里把动作做出来”的能力。

理解一句话、识别一个目标、拆解一个任务,这些事情确实越来越像通用能力了。但机器人最难的部分,从来不只是听懂、看懂,而是进入现实世界以后,动作是否真的成立,抓取角度对不对,轨迹稳不稳,接触力会不会失控,目标被遮挡后能不能继续,抓取失败后能不能恢复,换一个场景、换一个物体、换一台机器之后还能不能成功。

这些问题不是只靠更强的“理解能力”就能自动解决的。

具身智能大模型的价值,不在于把所有事情都包下来,而在于把大量和动作、操作、交互相关的经验沉淀下来,让机器人不仅能做出一个demo,更能形成稳定、可复用、可泛化的能力。

换句话说,通用模型正在吃掉的是“理解层”;而具身模型守住的,仍然是“动作层”和“物理落地层”。

所以,具身模型不是没有意义了,而是它的角色正在变化:过去它像是想包办一切的“全栈大脑”,现在它更像是在整个机器人系统里,负责决定能力上限的关键一层。

最后,让我们回到最开始的问题,OpenClaw到底给人形机器人行业带来了什么?

答案是,它让整个行业更早接受了一个事实:人形机器人的上层任务智能,正在快速通用化。

过去,很多公司最稀缺的能力,是把理解、感知、规划和调用整合成一个能工作的系统;但现在,随着多模态基础模型和Agent框架成熟,这部分门槛正在迅速下降。

做一个像样的demo,会越来越容易,这也意味着,机器人行业正在进入深水区。

未来比拼的,不再是谁先做出一个会“听懂指令”的演示,而是谁能把动作做稳,把成功率做高,把系统做成低延迟、可复现、可量产、可安全部署的产品。真正决定胜负的,将是更底层的专业能力:控制、数据、鲁棒性、工程化和量产能力。

换句话说,OpenClaw降低了做demo的门槛,却没有降低做成产品的难度。

而这恰恰是它对行业最大的冲击:那些还浮在表面、靠手搓demo讲故事的公司,其竞争力会迅速被挤压;潮水退去之后,才知道谁在裸泳。