一次火山引擎豆包模型内测


前言

元旦前夕,收到字节邀请参与内测豆包新模型。

配图是之前参加Trae Firends@成都。

欢迎您参加本次豆包编程模型内部测试!​
在测试完成、提交文档和问卷后,您将获得 500 元现金激励。​
本次测试将于 12/24 下午~12/25 期间进行,期间需要您预留至少 1.5 小时时间用于模型测试​。

谁会在乎这现金奖励呢,是吧?我肯定是为了AI迅速发展!

实际上是推迟到了 12.29-12.31 开工的,据说是字节的同学部署出了点小问题。

任务​书

我们希望您尽可能在日常真实的任务中使用模型,而不是进行一些特定的前端能力试验(例如让模型写前端小游戏或者复刻操作系统)​

本次测试需要您在您常用的编程工具中对比三个 Coding 模型的好坏,并给出打分​。
如果您是测试模型从零到一生成项目的能力,请在三个空的文件夹中分别进行测试​。
如果您是测试模型在现有项目上修复 Bug、添加功能的能力,请您先备份您的当前项目,并复制多个副本(或使用 Git 分支),使用三个模型分别在三个副本文件夹中进行测试​

为了进行测试,您需要自行垫付购买方舟 Coding Plan,相关费用可以报销,会在测试结束后与激励现金一起发放。​

选择对应的模型:本次您进行测试的是内测模型,在填写 model name 时要将文档中的 doubao-seed-code-preview-latest 替换成以下的三个模型​

  • 模型 A: doubao-seed-1-6-thinking-code-preview
  • 模型 B: doubao-seed-1-8-preview-code-preview-alpha
  • 模型 C: doubao-seed-1-6-thinking-code-preview-omega

测评结果

本次测评主要针对 Doubao Seed Code Preview 系列的三个内测模型进行横向对比。为了测试模型在实际开发中的表现,我设定了 Python + Tkinter 桌面应用开发的统一命题,分别要求模型生成以下三个工具:

  1. Todo List 应用(基础交互)
  2. Shell 脚本转 Python 工具(逻辑转换)
  3. Changelog 生成工具(文本处理)

测试环境为: Vs Code + Kilo Code(配有多个 MCP 插件)

经过三轮实战测试,针对代码生成质量、UI 美观度及响应速度,综合排名如下:

综合能力与生成速度: 模型 A > 模型 B > 模型 C

详细对比表:

维度模型 A (1-6-Thinking)模型 B (1-8-Alpha)模型 C (1-6-Omega)
UI 风格现代简洁,审美较好复古风格,组件丰富(支持分标签)表现一般
代码质量逻辑清晰,可用性高功能实现完整经常过度设计,逻辑复杂化
稳定性稳定稳定偶发乱码
Token 消耗正常正常消耗较大

尾声

短短半年的时间,字节在 AI 赛道上完成了惊人的蜕变。从上半年在开发者视野中的“边缘化”,到如今 Doubao 模型能力的大幅跃升,再配合 Trae 这一“杀手级”IDE 的落地,字节已经打出了一套漂亮的组合拳。

声明:Grows towards sunlight |版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 一次火山引擎豆包模型内测


Grows towards sunlight and Carpe Diem