我测过的 Doubao 2.1 Pro,今天终于面世了!
今天在评测群里收到了一条特别的消息,不是任务,而是发布! Doubao 2.1 Pro 发布,愣了几秒,终成!
过去一个月内,我作为外部专家参与了字节方舟的多轮 Coding Agent 众测,一共30期,我参与了一半,用匿名代号测试它。今天它终于公开身份了。
我做了什么
- 三个平台(Hermes / OpenClaw / Agents),八轮众测,二十多个真实 Coding 任务。每个任务 4 个匿名模型横向对比,用完全相同的 Prompt,10 分制打分。过去几周大概花了一百多个小时 "看 AI 写代码" 。
- 深度参与了 OpenClaw 测评平台的uat,这一点字节确实做的好,给建议是真听,支持了 openclaw 和 hermes 通过测评平台完成,能减少好多评测的工作量。
几个印象深的场景
0 次 Bash 的优雅——某个生成任务中,有个模型全程没跑过一次 shell 命令,全靠 WebFetch + Edit 完成。产物干净、代码克制,拿了满分。
三个模型同时掉进同一个坑——某个优化任务,三个模型不约而同在 Modal 里加了 auto-refresh 轮询,导致表单疯狂闪烁、根本改不了值。只有第四个选了"只 fetch 一次"的简单方案,反而功能正常。模型之间存在相似的"思维盲区"。
共性发现
也许新发布的模型已经优化了~
- 验证不足:编译报错不自检就交付,有模型修一个未使用变量花了三轮
- 任务间波动大:同一个模型这个任务 9 分、下个任务 3 分
- 前后端复杂任务参差不齐:无法完全验证前后端所有状态,只完成当次任务的校验。
回到今天
Doubao 2.1 Pro 正式面世了。回看评测数据,它在某些任务上很亮眼(特别是前端 UI 设计、Bug 修复方案优雅),但也有些任务翻车(产物不完整、编译报错)。这种 "有亮点但不稳定" 的表现,也是目前整个 Coding Agent 赛道的缩影,大家都在卷Agent能力,这是未来的方向,我相信未来会做的更好,那时也许我们不再coding。
参数告诉你"它能做什么",但只有自己跑一遍,才知道"它做得怎么样"。
代码不会说谎。
很荣幸能为国产模型进步贡献一点力量!



Comments | NOTHING