字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

机器之心报道

机器之心编辑部

InfCode 正在定义 AI 编程的「工程时代」。

自「造词大神」Andrej Karpathy 提出「Vibe Coding」这个概念后，它的热度就居高不下。

只需一句提示词描述「感觉」和意图，AI 就能直接生成可运行的代码，这种近乎魔法的编程体验让一众开发者叹为观止。

输入提示词：write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate（编写一个 Python 代码，可视化单行道中交通信号灯的工作情况，车辆以随机速率驶入），AI 就能在几秒钟内生成一个完整的动画模拟程序，包括交通灯的红黄绿切换逻辑、车辆的随机生成机制、停车和通行的判断规则，甚至还配上了流畅的可视化界面。

但惊喜过后，问题也随之而来。Vibe Coding 虽然擅长快速原型开发和单脚本编写，但在面对企业级复杂工程时仍显得力不从心。受限于上下文窗口、推理深度以及 Agentic 模式缺失，它往往难以精准定位大型代码库中深埋的 Bug，也极易在处理跨文件系统级修改时引发连锁错误，特别是在 C++ 等类型语言常用的底层框架编程场景中。

现在，来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶，力压一众编程智能体。

具体来说，InfCode 展现的不仅是单点技术突破。在 SWE-Bench Verified 上，它以 79.4% 的 Pass@1 得分拿下 SOTA，在 MultiSWEbench 的 C++ 子集上，更是以 25.58% 的解决率大幅领先 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。

这些数字背后，是一套面向企业场景设计的多智能体体系。对于希望在企业场景引入 AI Coding 的决策者而言，这也许是 AI 从「单体提效」走向企业「组织进化」的新范式。

如果说 Vibe Coding 开启了 AI 编程的「感性时代」，那么 InfCode 正在定义 AI 编程的「工程时代」。

AI 编程进入智能体时代

人工智能正在改变软件开发范式。

传统的大模型只能生成代码片段，而新一代编码智能体（Coding Agent）强调自主性、全流程覆盖和工程实用性。它们不仅会写代码，还能分解任务、调用工具、运行测试、反复调试，甚至提交补丁。这些智能体在多个基准上接受评测，其中最具权威的是由普林斯顿大学等提出的 SWE‑Bench 基准，以及 OpenAI 于 2024 年发布的升级版 SWE‑Bench Verified。该基准来自真实 GitHub 项目，每个样本附带自然语言问题描述和完整的测试用例，要求智能体既要解决问题，又不能破坏其他功能。

SWE‑Bench Verified 仅包含 Python 项目，无法反映多语言生态的挑战。2025 年，字节跳动联合科研机构推出了 Multi‑SWE‑bench 数据集，覆盖 Java、TypeScript、JavaScript、Go、Rust、C 与 C++ 等七种语言，共计 1632 个经过人工验证的修复任务，由 68 名专家从 2456 个候选样本中精挑细选。

研究表明，C++ 项目通常需要一次修改 200 多行、涉及 7 个文件，这远难于 JavaScript 等高层语言；系统语言由于手动内存管理与复杂的编译体系使得 LLM 表现显著降低。对比官方报告，领先模型在 C++ 上的解决率往往不足 8%。

词元无限的突破：InfCode 智能体

词元无限团队开发的 InfCode 智能体系统，在这一赛道上取得了突破性成绩：

在 SWE‑Bench Verified 上，InfCode 以 Pass@1 79.4% 的得分刷新 SOTA（世界最佳）—— 远高于公开排行榜上 GPT‑5、Claude 等顶尖模型 70% 左右的成绩。在 Multi‑SWE‑bench 的 C++ 子集（Multi‑SWE‑bench‑cpp）上达到 25.58% 的解决率，大幅领先于 Claude 3.7 Sonnet 的约 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5‑72B‑Instruct 几乎为零的解决率。考虑到系统语言的巨大难度，这一成绩堪称惊艳。

多语言基准显示，系统语言（C、C++、Rust）在内存管理、模板机制和复杂编译链方面的难度远高于 Python、Java 等高级语言。Multi‑SWE‑bench 中，C++ 问题往往涉及跨文件、大规模修改，部分任务需要改动 200 多行代码。下表总结了 Multi‑SWE‑bench 各模型在 C++ 上的解决率：

在这样的背景下，InfCode 在 C++ 子集上取得 25.58% 的 Pass@1 解决率，体现了语义定位与语法分析相结合的优势。它不仅能准确定位问题，更能在复杂语法和大型项目中生成正确补丁，这对工业界具有重要价值。

这些成绩并不是偶然，而是来自一套精心设计的技术体系，词元团队将相关技术报告发表在 arXiv 平台上（https://arxiv.org/abs/2511.16004）。

根据该分析报告，InfCode 包含三大核心亮点。

超越 RAG：基于功能意图的复杂上下文定位

在真实的软件仓库中，真正困难的往往不是「写出补丁」，而是「先在海量代码中找到有问题的代码块」。SWE-Bench 的任务通常不提供堆栈追踪（StackTrace），智能体只能依靠自然语言描述（如搜索功能变慢）去推测问题发生的位置。传统基于向量相似度的 RAG（Retrieval-Augmented Generation）机制，往往只会检索到包含「search」关键词的注释或变量，这套机制在中小规模仓库上或许能够定位到问题位置，但在大型工程中容易停留在「字面相关」的片段附近 —— 例如命中带有 search 字样的工具函数、配置或包装层，而不是实际承载查询逻辑的实现位置（如 Manager::ExecuteQuery），本质原因在于它主要感知的是局部向量相似度，而没有显式理解「代码承载的具体功能语义」及其「在系统中的逻辑归属」这类功能意图。

为突破这一瓶颈，InfCode 提出了「代码意图分析（Code Intent Analysis）」机制。

该机制让智能体能够超越字面匹配，理解自然语言背后的「功能意图」，并将其智能映射到项目中的具体实现单元（函数或类）。这一过程融合了语义推理与架构理解，使模型能在无堆栈信息的条件下仍然精准地锁定问题上下文。

研究表明，在多语言基准（如 Multi-SWE-bench）中，传统 LLM 往往无法正确识别文件或函数位置（尤其在 C++、Rust 等系统级语言中）。InfCode 的语义意图映射结合 AST 层级分析，有效提升了跨语言、跨模块的定位成功率，让智能体在复杂工程中具备了「理解全局意图、直达根因代码」的能力。

增强工具：超越 Grep 的基于 AST 的结构化检索

找到问题的代码只是第一步，如何精准定位并修改它才是工程修复的关键。

传统的文本搜索工具（如 grep）在 C++ 等复杂语言中存在天然缺陷 —— 同一标识符可能同时是类名、成员函数或变量，导致结果噪声极高。

字节跳动团队在 Multi-SWE-bench 的研究中指出，C++ 与 Rust 项目通常涉及跨文件、大规模修改，这使得「语义感知检索」成为智能体系统的必需能力。

InfCode 自研了基于抽象语法树（AST）的结构化检索引擎。

它通过 Tree-Sitter 构建完整的语法树，为智能体提供 FindClass、FindFunction 等语法层 API。

例如：

FindClass (Search)：只返回名为 Search 的类定义，自动忽略同名函数或变量； FindFunctions (MyClass::search)：仅匹配特定类的成员函数。

这种语法感知搜索（Syntax-Aware Search）的理念与开源工具 ast-grep 不谋而合 —— 它被称为「语法层的 grep/sed」，能通过 AST 模式快速定位与重写代码。

借助这种结构化检索，InfCode 的智能体不再「盲搜」，而是真正「理解」代码的层次结构，在复杂工程中实现更高精度的 bug 定位与安全修复。

多智能体生成：基于对抗式的代码补丁与测试补丁双智能体生成

修复能力的核心不在于「一次命中」，而在于反复试错、持续进化。

传统代码修复智能体多采用单智能体架构，无论是先生成测试补丁再生成修复代码，亦或是先生成修复代码再回测验证，这种单向的修复模式往往容易陷入「过拟合当前 Issue」的信息茧房。

InfCode 首创对抗式双智能体架构：

代码补丁生成器（Code Patch Generator）负责修改代码以通过当前测试集；测试补丁生成器（Test Patch Generator）则负责生成更强的测试用例，捕捉遗漏的边界场景。

二者在一个闭环中交替迭代：

当代码补丁通过测试后，测试补丁生成器会自动分析潜在漏洞并扩展测试覆盖度；随后代码补丁生成器必须进一步修复代码以应对新的挑战。

这种「越测越强、越修越稳」的对抗式工作流，让补丁在鲁棒性与完备性上持续演化，最终达到可直接集成于生产仓库的工程级质量。

这一设计契合了当前代码智能体研究的发展趋势：高水平智能体不仅要会生成，更要会验证与自我改进。

正如近期研究结果，单轮生成模式已难以支撑复杂工程任务，迭代 - 验证 - 优化的闭环结构将成为下一代 Coding Agent 的核心范式。

工程化细节：生成与筛选范式

InfCode 的修复流程分为两阶段：生成（Generate）与筛选（Select）。

在生成阶段，系统并行启动多个独立容器，每个容器运行一条修复链路，允许模型查看代码库、运行测试、分析错误，并迭代生成候选补丁。最多经历五轮迭代，产生多样化的补丁组合。

筛选阶段，系统在真实构建和测试环境中重放每个补丁，除了验证测试通过与否，还考虑行为一致性、稳定性和副作用。最终选出的补丁不仅「跑通测试」，还具有更强的工程完整性与可维护性。这种广泛探索 + 精准筛选的策略使 InfCode 能产出质量更高的修复补丁，而非过拟合或脆弱的修改方案。

背后站着一支「创业天团」

技术突破的背后，是一支被业内称为「创业天团」的豪华阵容。词元无限的核心团队不仅拥有顶尖的技术实力，更难得的是将技术前瞻、产品化能力与商业化思维三者融为一体，这在当下竞争激烈的 AI Coding Agent 赛道中，构成难以复制的全链路优势。

团队领军人杨萍在字节跳动期间主导创立公司首个软件工程实验室。其研发的多智能体测试系统，广泛应用于字节多条核心产品线。由她从零开始孵化的内部 AI Coding 产品，也早已全面覆盖公司研发体系。在复杂真实场景中，「如何在超大规模组织中向 AI 要效能和结果」，是词元团队深刻的基因。此次创业，期望通过革命性的 Agentic 平台，赋能企业以自然语言构建、优化和演化软件系统，降低技术门槛，加速数字化进程，让创新不再受技术资源限制。

CTO 王伟来自清华姚班，在大模型与智能体领域深耕多年，具备扎实的算法与工程经验。加入词元无限之前，他曾作为国内知名具身机器人公司与大模型创业公司的技术合伙人，主导打造了多个落地效果突出的大模型与具身智能项目，此前亦带队在 SWE-Bench 曾斩获全球第二的成绩，再加上这次 InfCode 登顶，展现了其团队在算法创新上的世界级水准。

而商业化负责人李莹拥有十余年 AI 产业落地经验，作为 AI 领域连续创业者，她曾主导多段从 0 到 1 的业务孵化、规模化增长直至公司成功登陆资本市场的完整周期，更是在大模型 To B 领域主导完成了数亿元规模的项目落地，实现了多家央国企及世界 500 强客户的亿级项目签约与卓越交付。这种将技术价值转化为商业回报的能力，正是 AI 创业公司最稀缺的资源。

这个团队汇聚了来自字节、百度、微软等顶尖企业的精英，以及清华、北大、哥大、MIT 等世界名校的人才，构成了独特的「顶尖老将 + 新生代骨干」组合。多个重要岗位由 00 后领衔，不仅为团队注入了对前沿技术的敏锐度和创新活力，也打造了扁平化、拥抱变化的 AI 原生企业文化，这对于需要在快速迭代的 AI Agent 赛道保持领先至关重要。

此外，团队对 AI Coding 赛道有着清晰的认知，该领域的竞争已从单纯的「工具效能」提升，转向对软件工程全生命周期的重构，即 AI SWE。未来的赢家将是那些能提供端到端价值闭环的「数字员工」平台，而非简单的代码补全工具。团队正致力于实现「Coding + 细分行业」的深度融合，通过赋能垂直领域的「Agentic ISV」，构建从工具到平台再到生态的商业闭环。

群发资讯网

字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

热门分类

字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

猜你喜欢

1.6TCPO量产潮来了：微软阿里抢货，这几家中国公司凭啥吃下全球订单？当AI

外媒已经敏锐察觉，中国已经发生了一个变化，但是更大的爆发还在后面！曾经国际科

AI算力危机真的来了，英伟达GPU产能爆炸却面临两大困境：1.微软囤积大量H

12月刚刚开始，中国传出的一则消息，让美国巨头企业倍感难受！两年前，美国微软

航天发展妥妥的航天中军。。。目前持续性最好的大题材了。端侧AI总感觉还是有一种龙

谁懂啊！3499元的手机刚开卖24小时就被抢光，二手平台直接炒到1万元，租一天都

黄仁勋在华盛顿坦言：就算美国放行H200芯片，中国也不一定再买。为什么不买了

热门分类