生成时间: 2025-07-29 18:27:55 | 测试轮数: 3 | 总任务数: 60
综合最优模型
阿里云 通义千问3 Coder Plus
综合评分: 0.63
基准模型
Claude Sonnet 4 (基准)
用于所有对比分析
测试模型数
4 个
总计 3 轮测试
评估权重
内容:35.0% | HTML:25.0% | 稳定:20.0% | 效率:10.0% | 成本:10.0%
ByteDance 豆包 Seed 1.6
Model ID: 100
阿里云 通义千问3 Coder Plus
Model ID: 110
智谱 GLM-4.5 128K
Model ID: 120
Claude Sonnet 4 (基准)
Model ID: 55
排名 | 模型 | 综合评分 | 成功率 | 平均耗时(s) | 平均Tokens | vs 基准 (评分) |
---|---|---|---|---|---|---|
1 | 阿里云 通义千问3 Coder Plus | 0.634 | 93.3% | 56.09 | 14,355 | +0.040 |
2 | Claude Sonnet 4 (基准) | 0.594 | 93.3% | 140.47 | 23,054 | 基准 |
3 | ByteDance 豆包 Seed 1.6 | 0.498 | 80.0% | 166.44 | 19,816 | -0.096 |
4 | 智谱 GLM-4.5 128K | 0.245 | 40.0% | 103.02 | 15,268 | -0.349 |