你的“AI First”战略,大概率从一开始就错了

2026-04-14 · 原文链接

我们 99% 的生产代码都是 AI 写的。上周二,我们早上 10 点上线了一个新功能,中午前就完成了 A/B 测试,下午 3 点因为数据不支持把它下线了。下午 5 点,我们又上线了一个更好的版本。三个月前,这样一个周期还要花六周。

我们并不是靠把 Copilot 装进 IDE 才走到今天的。我们是把整个工程流程拆掉,再围绕 AI 重新搭建了一遍。我们改变了规划、开发、测试、部署以及团队组织方式。我们也改变了公司里每一个人的角色。

CREAO 是一家 agent 平台公司。公司 25 个人,10 名工程师。我们从 2025 年 11 月开始构建 agents,而在两个月前,我又把整个产品架构和工程工作流从底层彻底重做了一遍。

OpenAI 在 2026 年 2 月提出了一个概念,恰好概括了我们一直在做的事。他们把它叫做 harness engineering:一个工程团队最核心的工作,不再是写代码,而是让 agents 能真正完成有价值的工作。当某件事失败时,修复方式绝不是“再努力一点”。真正的问题是:到底缺了什么能力?我们该如何把它变成 agent 能理解、能遵守、能被强制执行的东西?

我们是自己走到这个结论的。只是当时还没有这个名字。

AI First 并不等于会用 AI

大多数公司只是把 AI 贴到现有流程上。工程师打开 Cursor。PM 用 ChatGPT 写需求文档。QA 尝试用 AI 生成测试。整个工作流本身并没有变化。效率提升了 10% 到 20%。结构上什么都没变。

这叫 AI-assisted(AI 辅助)。

而 AI-first,意味着你要重新设计流程、架构和组织,前提是假设 AI 才是主要的构建者。你不再问“AI 能怎么帮助工程师?”,而是开始问:“我们该怎么重构一切,才能让 AI 来负责构建,而工程师负责方向与判断?”

两者的差距不是线性的,而是乘数级的。

我看到很多团队自称 AI-first,但仍然跑着同样的 sprint 节奏、同样的 Jira 看板、同样的每周 standup、同样的 QA 签字流程。他们只是把 AI 加进了环路,却没有重新设计这个环路。

一个常见版本,就是人们所谓的 vibe coding:打开 Cursor,不断 prompt,直到某个东西看起来能跑,提交,然后重复。这样可以做出原型。但生产系统需要稳定、可靠、安全。你需要的是一整套系统,能在 AI 写代码时仍然保证这些属性。真正该构建的是系统本身,prompt 只是消耗品。

为什么我们非改不可

去年,我观察团队是怎么工作的,然后看到了三个迟早会拖死我们的瓶颈。

产品管理瓶颈

我们的 PM 要花数周去调研、设计、写功能规格。几十年来,产品管理一直是这么运作的。但现在 agents 两小时就能实现一个功能。当构建时间从几个月塌缩到几小时,长达数周的规划周期本身就变成了瓶颈。

你不可能一件事想几个月,然后两小时把它做完,这完全不合理。

PM 必须进化成有产品判断力的架构师,以迭代的速度工作;否则就该退出构建环节。设计不该再通过委员会式审阅的规格文档完成,而应该通过“快速原型—上线—测试—迭代”的闭环推进。

QA 瓶颈

逻辑是一样的。一个 agent 刚交付完功能,我们的 QA 团队还要花几天去测边角场景。开发时间:两小时。测试时间:三天。

于是我们用 AI 搭建的测试平台去测试 AI 写出来的代码。验证速度必须和实现速度一致。否则,你只是把旧瓶颈往下游平移了十英尺而已。

人头瓶颈

我们的竞争对手做的是差不多的事,但人数往往是我们的 100 倍甚至更多。我们只有 25 个人。我们不可能靠招人追平,只能靠重构系统追平。

有三个系统必须让 AI 真正贯穿其中:产品设计、产品实现、产品测试。只要其中任何一个环节还停留在人工模式,它就会卡死整个流水线。

一个大胆的决定:统一架构

我得先修代码库。

我们旧的架构散落在多个彼此独立的系统里。一个改动,可能要改三四个仓库。对人类工程师来说,这还算可控;但对 AI agent 来说,这就是不透明。它看不到全局,无法推理跨服务影响,也没法在本地跑完整的集成测试。

所以我必须把所有代码统一进一个 monorepo。原因之一很直接:这样 AI 才能看见全部。

这就是 harness engineering 在实践中的样子。你把系统中越多的部分拉进 agent 可检查、可验证、可修改的形式里,你获得的杠杆就越大。碎片化代码库对 agents 来说是不可见的;统一之后,系统才变得可读。

我先花了一周设计新系统:规划阶段、实现阶段、测试阶段、集成测试阶段。接着又花了一周,借助 agents 把整个代码库重构了一遍。

CREAO 本身就是一个 agent 平台。我们用自己的 agents 去重建这个运行 agents 的平台。如果一个产品连自己都构建不了,那它就不算真的有效。

我们的技术栈

下面是我们的技术栈,以及每一部分在做什么。

基础设施:AWS

我们运行在 AWS 上,使用自动扩缩容的容器服务,并配有 circuit-breaker 回滚机制。如果部署后指标恶化,系统会自动回退。

CloudWatch 是整个系统的中枢神经。所有服务都输出结构化日志;配置了 25 个以上告警;自动化工作流每天查询自定义指标。基础设施中的每一个部分都必须暴露结构化、可查询的信号。AI 如果读不懂日志,就不可能诊断问题。

CI/CD:GitHub Actions

每一次代码变更都要经过一个六阶段流水线:

Verify CI → Build and Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release

每个 PR 上的 CI 闸门都会强制执行类型检查、lint、单元测试、集成测试、Docker 构建、通过 Playwright 跑的端到端测试,以及环境一致性检查。没有任何阶段是可选的,也没有人工特批。整个流水线是确定性的,因此 agents 可以预测结果,也能对失败进行推理。

AI 代码评审:Claude

每个 PR 都会触发三条并行的 Claude Opus 4.6 评审链路:

Pass 1:代码质量。检查逻辑错误、性能问题、可维护性。

Pass 2:安全性。扫描漏洞、检查认证边界、识别注入风险。

Pass 3:依赖扫描。检查供应链风险、版本冲突、许可证问题。

这些不是“建议”,而是真正的评审闸门。它们和人工评审并行运行,以规模化方式捕捉人类会漏掉的问题。当你一天部署八次时,没有任何一个人工 reviewer 能在每一个 PR 上都保持同样的注意力。

工程师也会在任何 GitHub issue 或 PR 里直接 @claude,请它给出实现方案、参与调试或做代码分析。agent 能看到整个 monorepo,上下文也可以跨对话延续。

自愈式反馈闭环

这是整个系统的核心。

每天 UTC 时间早上 9 点,一个自动健康检查工作流会运行。Claude Sonnet 4.6 会查询 CloudWatch,分析所有服务中的错误模式,然后生成一份高管级健康摘要,通过 Microsoft Teams 发给团队。没有人需要先开口提问。

一小时后,分诊引擎启动。它会从 CloudWatch 和 Sentry 聚类线上错误,对每个错误簇按九个严重性维度打分,并在 Linear 里自动生成调查工单。每个工单都附带示例日志、受影响用户、受影响接口以及推荐的排查路径。

系统还会自动去重。如果某个错误模式已经有未关闭的 issue,它就更新原 issue;如果一个已经关闭的问题再次出现,它会识别回归并重新打开。

当工程师推送修复后,同一条流水线会继续处理。三个 Claude 评审通道先审 PR,CI 再验证,然后六阶段部署流水线依次推进 dev 和 prod,并在每个阶段都测试。部署完成后,分诊引擎会再次检查 CloudWatch。如果原始错误已经消失,对应的 Linear ticket 就会自动关闭。

每个工具只负责一个阶段,没有任何工具试图包办一切。这样一来,日常循环就形成了一个自愈闭环:错误被发现、被分诊、被修复、被验证,而人工介入被压到最低。

我曾对 Business Insider 的记者说过一句话:“AI 会去创建 PR,人类只需要审查其中是否存在风险。”

Feature Flags 与配套系统

Statsig 负责 feature flags。每一个功能都会在开关后面发布。典型 rollout 模式是:先给团队内部打开,再逐步按比例放量,最后要么全面发布,要么直接砍掉。kill switch 可以瞬间关闭功能,无需重新部署。如果某个功能把指标拉坏了,我们几个小时内就会撤掉。糟糕的功能会在上线当天就被终止。A/B 测试也跑在同一个系统里。

Graphite 负责 PR 分支管理:merge queue 会先把分支 rebase 到 main,再重新跑一遍 CI,只有全绿才允许合并。stacked PR 让高吞吐场景下的增量评审成为可能。

Sentry 负责汇报所有服务中的结构化异常;分诊引擎会把它和 CloudWatch 合并,形成跨工具上下文。Linear 是面向人的一层:自动创建的 ticket 附带严重性评分、示例日志和建议调查路径。去重可以抑制噪音,而后续验证则能自动关闭已解决问题。

一个功能如何从想法进入生产

新功能路径

  1. 架构师把任务定义成结构化 prompt,其中包含代码库上下文、目标和约束。
  2. 一个 agent 拆解任务、规划实现、写代码,并生成自己的测试。
  3. 系统开启 PR。三条 Claude 评审链路进行审核。人工 reviewer 检查的是战略层面的风险,而不是逐行检查正确性。
  4. CI 验证:类型检查、lint、单元测试、集成测试、端到端测试。
  5. Graphite 的 merge queue 负责 rebase、重跑 CI,绿灯才合并。
  6. 六阶段部署流水线依次推进 dev 和 prod,并在每个阶段都做测试。
  7. feature gate 先对团队打开,再逐步按比例放量,并持续监控指标。
  8. 如果任何指标变差,就可以立刻触发 kill switch;更严重时则由 circuit-breaker 自动回滚。

Bug 修复路径

  1. CloudWatch 和 Sentry 发现错误。
  2. Claude 分诊引擎为严重性打分,并在 Linear 创建附带完整调查上下文的 issue。
  3. 工程师开始排查。AI 已经完成初步诊断,人类要做的是验证并推送修复。
  4. 然后走同样的评审、CI、部署和监控流水线。
  5. 分诊引擎再次验证,如果问题已解决,ticket 自动关闭。

两条路径共用同一条流水线。一个系统,一个标准。

结果

在 14 天里,我们平均每天向生产环境部署 3 到 8 次。按照我们旧的模式,整整两周甚至还不够产出一次正式上线。

糟糕的功能会在上线当天被撤掉。新的功能会在被想到的当天进入线上。A/B 测试能实时验证影响。

很多人以为我们是在拿质量换速度。事实恰恰相反:用户参与度提高了,付费转化提高了。我们的结果比以前更好,因为反馈回路更紧。你按日发布时学到的东西,远远多于按月发布。

新的工程组织

未来只会剩下两类工程师。

架构师(The Architect)

只需要一两个人。他们负责设计标准操作流程,让 AI 学会如何工作;他们负责搭建测试基础设施、集成系统和分诊系统;他们决定架构和系统边界;他们定义 agents 的“好”到底意味着什么。

这个角色需要极强的批判性思维。你要批评 AI,而不是跟随它。agent 提出方案时,架构师要能看出漏洞:它漏掉了哪些 failure mode?跨越了哪些安全边界?积累了哪些技术债?

我有一个物理学博士学位。博士训练里最有价值的一件事,并不是学到某个专业知识,而是学会质疑假设、压力测试论证、寻找遗漏。未来,批判 AI 的能力,会比产出代码的能力更值钱。

这也是最难招到人的角色。

操作员(The Operator)

其他所有人都归于这一类。工作依然重要,只是结构变了。

AI 会把任务分配给人类。分诊系统发现 bug、创建 ticket、给出诊断并分配给合适的人。人去调查、验证并批准修复。AI 发起 PR,人类只审查其中是否存在风险。

这类任务包括:bug 调查、UI 微调、CSS 改进、PR 审查、验证。这些工作依然需要技能和专注力,但不再要求旧模式下那种架构级推理能力。

谁适应得最快

我观察到了一个出乎意料的模式:初级工程师适应得比资深工程师更快。

传统训练较少的初级工程师,反而更容易获得“被放大”的感觉。他们手里多了能放大影响力的工具,也没有十年的习惯包袱需要先被卸掉。

而传统功底很强的资深工程师,适应起来最困难。过去他们两个月的工作,如今 AI 一小时就能做完。对一个靠稀缺技能积累多年的人来说,这非常难接受。

我不是在做价值评判,我只是在描述我看到的事实。在这场转变中,适应力比积累多年的技能更重要。

人的一面

管理工作塌缩了

两个月前,我 60% 的时间都花在管理人:对齐优先级、开会、给反馈、辅导工程师。

现在?低于 10%。

传统 CTO 模式会告诉你,要授权团队做架构工作、训练他们、再把事情委派下去。但如果整个系统最终只需要一两个架构师,那我就必须先亲自把这件事做起来。我从“管理”重新回到了“构建”。大多数时候,我每天从早上 9 点一直写到凌晨 3 点。我在设计整个系统的 SOP 和架构,也在维护这套 harness。

压力更大了。但我更享受构建,而不是对齐。

争论变少了,关系反而更好了

我和联合创始人、工程师之间的关系,比以前更好了。

转型前,我和团队之间的大多数互动,都是各种对齐会议:讨论权衡、争论优先级、在技术决策上意见不合。这些在传统模式里当然必要,但也极度消耗人。

现在我依然会和团队交流,只是我们聊的更多是别的事情:工作之外的话题、轻松的日常、线下出行。我们相处得更好了,因为我们不再围绕那些已经可以被系统轻松完成的工作不停争执。

真实的不确定性

我不会假装每个人都很开心。

当我不再每天都跟大家说很多话时,有些团队成员会感到不安:CTO 不再主动找我,这意味着什么?在这个新世界里,我的价值是什么?这些担心完全合理。

也有人花更多时间在争论 AI 是否会取代自己的工作,而不是去做工作本身。转型期确实会制造焦虑。我没有一个漂亮而完整的答案。

但我有一个原则:我们不会因为某位工程师引入了线上 bug 就开除他。我们会去改进 review 流程、强化测试、增加 guardrails。对 AI 也是一样。如果 AI 犯错,我们就去构建更好的验证机制、更清晰的约束和更强的可观测性。

不只是工程

我看到很多公司在工程侧推行 AI-first,但其他部门依然完全停留在手工模式。

如果工程几小时就能发布功能,但市场团队要花一周才能对外宣布,那市场就是瓶颈。如果产品团队还在跑每月一次的规划节奏,那规划就是瓶颈。

在 CREAO,我们把 AI-native 的运营方式推进到了每一个职能:

工程、产品、营销和增长,全都运行在同一套 AI-native 工作流中。只要有一个职能跑在 agent speed,另一个还停留在人类速度,那么这个“人类速度”的职能就会限制一切。

这意味着什么

对工程师来说

你的价值正在从“代码产量”转向“决策质量”。写代码快这件事,每个月都在变得更不值钱;而评估、批评和引导 AI 的能力,则越来越值钱。

产品感和审美会变得重要。你能否看到一个生成出来的 UI,就在用户开口前判断它是错的?你能否看到一个架构方案时,就立刻意识到 agent 漏掉了哪个 failure mode?

我会对我们 19 岁的实习生说:去训练批判性思维。学会评估论证、发现空白、质疑假设。学会辨认什么是好的设计。这些能力会不断复利。

对 CTO 和创始人来说

如果你的 PM 流程比构建时间还长,就先从那儿动刀。

在扩大 agent 规模之前,先把测试 harness 搭起来。快的 AI 如果没有同样快的验证,本质上只是高速积累技术债。

先从一个架构师开始。让一个人把整套系统搭起来,证明它能工作。等系统跑通后,再把其他人逐步纳入 operator 角色。

把 AI-native 推进到每一个职能里。

也要做好面对阻力的准备。总会有人反对。

对整个行业来说

OpenAI、Anthropic 以及多个独立团队,正在收敛到同一组原则:结构化上下文、专门化 agents、持久记忆以及执行闭环。Harness engineering 正在变成一种标准。

模型能力是推动这一切的时钟。我会把 CREAO 这次转变几乎全部归因于过去两个月的模型进步。Opus 4.5 做不到 Opus 4.6 能做到的事。下一代模型只会把这件事进一步加速。

我相信“一人公司”会变得越来越常见。如果一个架构师加上一组 agents 就能完成 100 个人的工作,那很多公司根本不需要第二个员工。

我们还很早

我接触的大多数创始人和工程师,依然还在按传统方式工作。有些人开始思考要不要转变,但真正做完这次转变的人,极少。

一位记者朋友告诉我,她就这个主题采访过大概五个人。她说我们走得比任何人都更远:“我不觉得有人像你们这样,把整套工作流彻底重建了一遍。”

任何团队都已经拥有做这件事所需的工具。我们的技术栈里,没有任何东西是专有的。

真正的竞争优势,在于你是否愿意围绕这些工具重新设计一切,也在于你是否愿意吞下这其中的成本。这个成本是真实存在的:员工的不确定感、CTO 连续 18 小时的工作强度、资深工程师对自身价值的怀疑、以及那两周里旧系统已经被拆掉、新系统却还没被证明有效的真空期。

这些成本,我们扛下来了。两个月后,数据已经自己说明了一切。

我们做的是一个 agent 平台。而我们就是用 agents 把它做出来的。