LLM 模型批量测试评估报告

综合最优模型

阿里云通义千问3 Coder Plus

综合评分: 0.63

基准模型

Claude Sonnet 4 (基准)

用于所有对比分析

测试模型数

4 个

总计 3 轮测试

评估权重

内容:35.0% | HTML:25.0% | 稳定:20.0% | 效率:10.0% | 成本:10.0%

参评模型列表

ByteDance 豆包 Seed 1.6

Model ID: 100

阿里云通义千问3 Coder Plus

Model ID: 110

智谱 GLM-4.5 128K

Model ID: 120

Claude Sonnet 4 (基准)

Model ID: 55

排名	模型	综合评分	成功率	平均耗时(s)	平均Tokens	vs 基准 (评分)
1	阿里云通义千问3 Coder Plus	0.634	93.3%	56.09	14,355	+0.040
2	Claude Sonnet 4 (基准)	0.594	93.3%	140.47	23,054	基准
3	ByteDance 豆包 Seed 1.6	0.498	80.0%	166.44	19,816	-0.096
4	智谱 GLM-4.5 128K	0.245	40.0%	103.02	15,268	-0.349

caibao.txt

模型	状态	耗时(s)	vs 基准 (耗时)	总 Tokens	HTML Score	Content Score
阿里云通义千问3 Coder Plus	success	55.81	-59.2%	17,216	0.943	0.237
Claude Sonnet 4 (基准)	success	136.78	基准	24,710	1.000	0.322
ByteDance 豆包 Seed 1.6	success	192.65	+40.9%	22,760	1.000	0.320
智谱 GLM-4.5 128K	timeout	40.57	-70.3%	15,447	0.000	0.000

meeting3.txt

模型	状态	耗时(s)	vs 基准 (耗时)	总 Tokens	HTML Score	Content Score
ByteDance 豆包 Seed 1.6	success	182.56	+3429.2%	16,121	1.000	0.163
阿里云通义千问3 Coder Plus	success	45.62	+781.8%	10,624	0.749	0.078
智谱 GLM-4.5 128K	success	258.06	+4888.7%	20,666	0.970	0.256
Claude Sonnet 4 (基准)	timeout	5.17	基准	0	0.000	0.000

metting1.txt

模型	状态	耗时(s)	vs 基准 (耗时)	总 Tokens	HTML Score	Content Score
阿里云通义千问3 Coder Plus	success	55.78	-60.6%	15,143	0.893	0.058
ByteDance 豆包 Seed 1.6	success	167.02	+17.9%	20,639	1.000	0.112
智谱 GLM-4.5 128K	success	182.25	+28.6%	19,122	0.910	0.150
Claude Sonnet 4 (基准)	success	141.67	基准	26,737	1.000	0.106

resume.txt

模型	状态	耗时(s)	vs 基准 (耗时)	总 Tokens	HTML Score	Content Score
阿里云通义千问3 Coder Plus	success	106.34	-30.0%	19,630	0.925	0.837
Claude Sonnet 4 (基准)	success	151.82	基准	23,949	0.970	0.799
ByteDance 豆包 Seed 1.6	timeout	151.83	+0.0%	19,455	0.000	0.000
智谱 GLM-4.5 128K	timeout	45.58	-70.0%	15,152	0.000	0.000

youtube.txt

模型	状态	耗时(s)	vs 基准 (耗时)	总 Tokens	HTML Score	Content Score
阿里云通义千问3 Coder Plus	success	60.82	-53.8%	13,365	0.898	0.088
ByteDance 豆包 Seed 1.6	success	177.18	+34.5%	17,627	1.000	0.148
Claude Sonnet 4 (基准)	success	131.68	基准	22,390	0.985	0.134
智谱 GLM-4.5 128K	timeout	45.60	-65.4%	12,521	0.000	0.000