LLM模型评估报告

生成时间: 2025-07-29 18:27:55 | 测试轮数: 3 | 总任务数: 60

综合最优模型

阿里云 通义千问3 Coder Plus

综合评分: 0.63

基准模型

Claude Sonnet 4 (基准)

用于所有对比分析

测试模型数

4 个

总计 3 轮测试

评估权重

内容:35.0% | HTML:25.0% | 稳定:20.0% | 效率:10.0% | 成本:10.0%

参评模型列表

ByteDance 豆包 Seed 1.6

Model ID: 100

阿里云 通义千问3 Coder Plus

Model ID: 110

智谱 GLM-4.5 128K

Model ID: 120

Claude Sonnet 4 (基准)

Model ID: 55

综合性能评分 (平均值)

排名 模型 综合评分 成功率 平均耗时(s) 平均Tokens vs 基准 (评分)
1 阿里云 通义千问3 Coder Plus 0.634 93.3% 56.09 14,355 +0.040
2 Claude Sonnet 4 (基准) 0.594 93.3% 140.47 23,054 基准
3 ByteDance 豆包 Seed 1.6 0.498 80.0% 166.44 19,816 -0.096
4 智谱 GLM-4.5 128K 0.245 40.0% 103.02 15,268 -0.349

分项对比 (基于最后一轮测试)

caibao.txt
模型 状态 耗时(s) vs 基准 (耗时) 总 Tokens HTML Score Content Score
阿里云 通义千问3 Coder Plus success 55.81 -59.2% 17,216 0.943 0.237
Claude Sonnet 4 (基准) success 136.78 基准 24,710 1.000 0.322
ByteDance 豆包 Seed 1.6 success 192.65 +40.9% 22,760 1.000 0.320
智谱 GLM-4.5 128K timeout 40.57 -70.3% 15,447 0.000 0.000
meeting3.txt
模型 状态 耗时(s) vs 基准 (耗时) 总 Tokens HTML Score Content Score
ByteDance 豆包 Seed 1.6 success 182.56 +3429.2% 16,121 1.000 0.163
阿里云 通义千问3 Coder Plus success 45.62 +781.8% 10,624 0.749 0.078
智谱 GLM-4.5 128K success 258.06 +4888.7% 20,666 0.970 0.256
Claude Sonnet 4 (基准) timeout 5.17 基准 0 0.000 0.000
metting1.txt
模型 状态 耗时(s) vs 基准 (耗时) 总 Tokens HTML Score Content Score
阿里云 通义千问3 Coder Plus success 55.78 -60.6% 15,143 0.893 0.058
ByteDance 豆包 Seed 1.6 success 167.02 +17.9% 20,639 1.000 0.112
智谱 GLM-4.5 128K success 182.25 +28.6% 19,122 0.910 0.150
Claude Sonnet 4 (基准) success 141.67 基准 26,737 1.000 0.106
resume.txt
模型 状态 耗时(s) vs 基准 (耗时) 总 Tokens HTML Score Content Score
阿里云 通义千问3 Coder Plus success 106.34 -30.0% 19,630 0.925 0.837
Claude Sonnet 4 (基准) success 151.82 基准 23,949 0.970 0.799
ByteDance 豆包 Seed 1.6 timeout 151.83 +0.0% 19,455 0.000 0.000
智谱 GLM-4.5 128K timeout 45.58 -70.0% 15,152 0.000 0.000
youtube.txt
模型 状态 耗时(s) vs 基准 (耗时) 总 Tokens HTML Score Content Score
阿里云 通义千问3 Coder Plus success 60.82 -53.8% 13,365 0.898 0.088
ByteDance 豆包 Seed 1.6 success 177.18 +34.5% 17,627 1.000 0.148
Claude Sonnet 4 (基准) success 131.68 基准 22,390 0.985 0.134
智谱 GLM-4.5 128K timeout 45.60 -65.4% 12,521 0.000 0.000