2026年1月的李想对AI与Agent的理解站在2026年1月,不论是原有巨头还是全新AI公司,组织方式基本变成一样,各个团队整合在一起进行联合设计,共同设计硅基生命的感知/大脑/心脏/神经/软件本体/硬件本体。和过去做软件做硬件的方式发生了根本性变化。完全不同于互联网移动互联网时代。 都会有Infra团队来确保足够的算力和数据稳定性,相当于硅基生命的云端心脏器;都有基座模型团队,相当于硅基生命的大脑,都会去做视频音频多模态,做机器人的大脑。都需要招大量的研究员,都以校招生为主,且发现本科生也行。都需要做预训练与后训练。在2025年下半年,逐渐都形成一个软件本体团队,组织中出现专门负责造手的团队,构建完整的工具链和SaaS调用能力,让模型具备在数字世界的执行力。免费提供数字世界所有使用的工具,免费提供一个完整的团队,如Lovart提供完整的设计团队,从想法一直到最后发布的效果;Claude Code从需求分析到架构设计/前端/后端/部署/验证都做。都要做所有的微调,context工程与记忆,从而把一个很好的脑子变成一个人,配合工具能够去大规模生产。都要评估模型的能力。很多做应用做Agent的团队有两种错误的做后训练方式1.类似LoRA 主模型参数不动,用小模型来协助主模型进行工作 所有的大厂不这样做,是因为这相当于在做一个章鱼,建了一个大脑,在肢体上又放一个脑,即永远是章鱼的结构,无论多么努力也只是个聪明的章鱼,无法成人。2.根据需求去后训练,选中主模型参数。比如基于DeepSeek做后训练,根据需求调主模型的参数与权重,主模型一定互变得更差。基座模型至少要每周一次迭代,agent本体至少一天一迭代。即人类先创造出一个硅基特点的生命,再与人合作,创造出硅基人类去从事碳基人类的工作与生产。 工具不要钱,模型不要钱,token要钱。硅基人类只消耗token,不消耗别的。理想要对技术和研发团队进行大调整,把工作权限按照最先进的公司,按协作造硅基生命的方式进行工作。构建完整的AI系统,包含推理芯片、操作系统、基座模型,理想分别从2022/2022/2023年开始做,不是突然想做就能做,找别人借大脑/身体的迭代速度一定慢于原生的codesign。 要构建真正的软件本体,去服务用户大规模生产,围绕用户完整软件生态,持续研发和训练系统级的通用Agent。手机上所有的应用,都应该跑在车上,而不是只是定制的一些东西。对这个生态要做到完全的丰富。硬件本体加深电池电机碳化硅心态主动式转向刹车悬架自研。Google多模态好是因为有YouTube,有所有语言的字幕和画面的对应。OpenAI不行是因为Google不让OpanAI爬自己数据, Anthropic编程好是因为几个创始人今天都在写代码。2024年9月25日在杭州参加一场AI创业者会议。当时OpenAI o1尚未发布,关于大模型如何落地存在两派观点: A派(35-50岁创业者为主)认为大模型幻觉严重,必须依靠知识图谱和规则算法来解决商业化问题。这批人当时融资多、团队大。 B派(以Manus团队为代表)坚信通过大模型 + Prompt工程就能挖掘AI能力,认为知识图谱是死路(天花板太低)。 站在2026年看,A派几乎全军覆灭,坚持纯模型路线的B派成为了独角兽。2025年2月7日见到了Manus/Genspark/Qwen/豆包的负责人,还有当时在OpenAI后面去腾讯的姚顺雨,他们当时就说要做通用agent。 2026年1月,华人领域80%的主流的验证成功的都出现在当时的饭桌上。往往第一个做的不一定是最后成功的,但是最后最成功的一拨人一定是第一波做的。李想2025年三个印象最深的AI产品 1.Sonnet 4.5后的Claude Code 2025年三季度Andrej Karpathy说Agent要发展要10年,到11月时,已经开始说Opus 4.5让自己从未感到如此落后。 李想大量的工作在用Claude Code来做,认为相当于一个更高的数字文明给其配了完整的工程师团队与数字世界的所有工具,不仅仅是去写代码,而是用工程的方式解决所有问题,如果没有现成工具,会临时coding工具。是一个工程师思维的通用Agent。 Claude Code通过CLI(命令行)界面工作,不仅能调用现有工具,还能在没有工具时自己编写工具,甚至直接调用操作系统权限(如 SQL 写入、Mac 权限)来解决问题。Agent核心是可以主动行动,像一个数字化的手。 真正的使用三天以后,会对后边的AI所有的发展和工作方式有了真正的理解。2026年80-90%信息类的工作只要用Claude Code就能做出来了,选对最好的工具也是一个非常重要的能力,半年后用Claude Code与Cursor就会发生更本性差别。2.Manus Manus拉丁文翻译到中文就是手,从浏览器+工具的角度做一个通用Agent。Manus实际定义了Agent到底应该怎么做。Claude做的Cowork实际是对Manus的复制。Copilot是上一个时代产物。Manus最初二三十人团队,今天规模也就100人左右,做出全世界最好的通用Agent。3.豆包手机 做了一个系统级的通用Agent, 在工作中分开两个屏是因为 1.可以调上面所有的应用,而且所有的功能都能开启、都能使用,除非这个应用背后的公司在 API 上封杀了你。2.豆包手机的交互方式跟人是一模一样的,易于人的理解。 3.操作路径和反馈直接转化为训练数据,自我进化(从7-8步缩减至1-2步)。包括理想车机在内的现有的深度定制(如直达指令)本质是像热键(潜规则/API),而非真正的交互(像鼠标+键盘)。 比如一些功能支持 QQ 音乐不支持 B 站,用户体验割裂。为适配定制导致车机 APP 无法跟随手机端更新,热键逻辑无法产生有效训练数据。Claude Code 之所以选择 CLI(命令行)界面而非 IDE(集成开发环境)界面,是因为这与工程师的实际工作方式一致。让人类与 AI相互理解彼此的工作逻辑。 今天所有车,包括特斯拉,都没有实现Claude与豆包手机这种操作逻辑。2026年1月印象最深的AI产品是千问。 可以几十秒点20杯不同的奶茶,人需要10-20分钟。千问APP是生活服务领域的通用Agent。类似点奶茶咖啡这样的高频需求才能支撑生活里的通用Agent。四条跑通的通用Agent路径: 模型能力派(Claude)、系统终端派(豆包)、生活生态派(阿里)、浏览器工具派(Manus)。理想要想服务好用户,必须做系统级通用Agent,需要基座模型能力与生态。 ChatGPT想做购物会受到亚马逊阻难,豆包手机被微信/支付宝/银行阻难。人类所有应用软件工具服务只有4大类 ToB 提升信息效率与生产效率的。 ToC 改善生活与娱乐上瘾。理想做改善生活类,自动驾驶+司机与人形机器人+家政司机很多时候是生活助理的角色,承担充电/接孩子/取快递/处理违章等事。家政解决做饭、洗衣、收纳等家务。雇司机保姆家政的是同一拨人,会希望同一个脑系统与沟通方式。人形机器人加家政必须立刻启动,再不启动就会错过第一波最后的上车机会。空间机器人和人形机器人一些团队从水面下浮到水面上。去招聘最好的人。把原来由于没有机器人,看到了很多机器人创业公司的一些人再招回来。今天看机器人遇到的很多难题,非常像2025年2月7日Manus/Genspark讲通用Agent的难度,机器人迭代速度会比软件稍慢一些,但进展幅度和变化程度会比所有人想象的快。具身智能除了云端大脑,还需要端侧建设。必须有本地推理芯片,相当于硅基生命的本地心脏,确保断网时的安全。端侧模型类似人类大脑,容量有限但反应快。必须重新设计感知系统。李想用犀牛和人都看不到自己的鼻子举例,说明感知是被大脑模型训练出来的,必须与大脑联合设计。具身智能的竞争是一场物种进化竞赛,人类与其他物种竞争,是因为大脑、感官、肢体是完美平衡的联合设计。如果任何一项弱 30-50%,就会被淘汰。过去的好东西是肉埋在馒头里要翻出来才能看到;现在的 Proactive(主动服务)是肉眼可见的、无需用户动手的。Proactive(主动服务),核心是高频且无需用户指令。理想使命: Be Proactive, Change the World.强化具身智能的品牌定位。不再是创造移动家,而是理想,给车和家赋予生命。真正要做的是去创造硅基的人。未来五年,数字世界美国或许会略优,在具身智能,哪怕有特斯拉,中国企业也会完胜美国。理想汽车理想汽车