我测过的 Doubao 2.1 Pro，今天终于面世了！

今天在评测群里收到了一条特别的消息，不是任务，而是发布！ Doubao 2.1 Pro 发布，愣了几秒，终成！
过去一个月内，我作为外部专家参与了字节方舟的多轮 Coding Agent 众测，一共30期，我参与了一半，用匿名代号测试它。今天它终于公开身份了。

我做了什么

三个平台（Hermes / OpenClaw / Agents），八轮众测，二十多个真实 Coding 任务。每个任务 4 个匿名模型横向对比，用完全相同的 Prompt，10 分制打分。过去几周大概花了一百多个小时 "看 AI 写代码" 。
深度参与了 OpenClaw 测评平台的uat，这一点字节确实做的好，给建议是真听，支持了 openclaw 和 hermes 通过测评平台完成，能减少好多评测的工作量。

几个印象深的场景

0 次 Bash 的优雅——某个生成任务中，有个模型全程没跑过一次 shell 命令，全靠 WebFetch + Edit 完成。产物干净、代码克制，拿了满分。

三个模型同时掉进同一个坑——某个优化任务，三个模型不约而同在 Modal 里加了 auto-refresh 轮询，导致表单疯狂闪烁、根本改不了值。只有第四个选了"只 fetch 一次"的简单方案，反而功能正常。模型之间存在相似的"思维盲区"。

共性发现

也许新发布的模型已经优化了～

验证不足：编译报错不自检就交付，有模型修一个未使用变量花了三轮
任务间波动大：同一个模型这个任务 9 分、下个任务 3 分
前后端复杂任务参差不齐：无法完全验证前后端所有状态，只完成当次任务的校验。

回到今天

Doubao 2.1 Pro 正式面世了。回看评测数据，它在某些任务上很亮眼（特别是前端 UI 设计、Bug 修复方案优雅），但也有些任务翻车（产物不完整、编译报错）。这种 "有亮点但不稳定" 的表现，也是目前整个 Coding Agent 赛道的缩影，大家都在卷Agent能力，这是未来的方向，我相信未来会做的更好，那时也许我们不再coding。

参数告诉你"它能做什么"，但只有自己跑一遍，才知道"它做得怎么样"。

代码不会说谎。

很荣幸能为国产模型进步贡献一点力量！