feat: GPU bakeoff — 3090 Ti vs V100 vs Strix Halo
Cross-host Gemma 4 throughput comparison across three architectures. Harness at scripts/gpu-bakeoff/; writeup at docs/reference/gpu-bakeoff-2026-04-20.md. Key findings: - RTX 3090 Ti wins decode decisively (128 tok/s on gemma4:26b MoE Q4, ~4.7× faster than gemma4:31b dense on the same card). - AMD Strix Halo iGPU lands at ~42% of 3090 Ti decode on ~25% of the memory bandwidth — good SIMD utilization, especially for MoE. - V100 numbers are DEGRADED: CT 167 ai-visualizer SDXL consumes 31/32 GB of its VRAM, forcing Gemma 4 models 95% onto CPU. Isolated V100 run requires SDXL eviction — left as follow-up. - MoE vs dense is the dominant latency factor across all GPUs: ~4 B active params of gemma4:26b beats 31.3 B active of gemma4:31b by the same ratio (~4.7×) on every card tested. Methodology: 1 warmup + 3 measurement runs per (host × model × prompt-length), Ollama's canonical timing fields, temp=0 greedy, num_predict=256. All three Ollama servers accessed via HTTP (Strix via Tailscale). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,6 @@
|
||||
[matt-strix] gemma4:26b short — prefill=1275.71 tok/s decode= 53.83 tok/s
|
||||
[matt-strix] gemma4:26b long — prefill=14326.07 tok/s decode= 52.42 tok/s
|
||||
[matt-strix] gemma4:31b short — prefill= 291.74 tok/s decode= 10.64 tok/s
|
||||
[matt-strix] gemma4:31b long — prefill= 3277.8 tok/s decode= 10.42 tok/s
|
||||
[matt-strix] gemma4:26b-q8 short — model not available on host
|
||||
[matt-strix] gemma4:26b-q8 long — model not available on host
|
||||
@@ -0,0 +1,5 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"model_alias": "gemma4:26b-q8",
|
||||
"skipped": "model not available on host"
|
||||
}
|
||||
@@ -0,0 +1,5 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"model_alias": "gemma4:26b-q8",
|
||||
"skipped": "model not available on host"
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"gpu": "AMD Strix Halo iGPU",
|
||||
"vram_gb": null,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 22.5,
|
||||
"prefill_tok_per_s": 14201.36,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4883.4,
|
||||
"decode_tok_per_s": 52.42,
|
||||
"load_ms": 151.1,
|
||||
"total_ms": 5120.3,
|
||||
"harness_wall_s": 5.186,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 22.1,
|
||||
"prefill_tok_per_s": 14448.45,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4881.1,
|
||||
"decode_tok_per_s": 52.45,
|
||||
"load_ms": 159.1,
|
||||
"total_ms": 5124.5,
|
||||
"harness_wall_s": 5.18,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 22.3,
|
||||
"prefill_tok_per_s": 14326.07,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4885.3,
|
||||
"decode_tok_per_s": 52.4,
|
||||
"load_ms": 155.4,
|
||||
"total_ms": 5128.9,
|
||||
"harness_wall_s": 5.192,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 265.0,
|
||||
"prefill_tok_per_s": 1203.86,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4880.6,
|
||||
"decode_tok_per_s": 52.45,
|
||||
"load_ms": 159.8,
|
||||
"total_ms": 5368.3,
|
||||
"harness_wall_s": 5.429,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 14201.36,
|
||||
"median": 14326.07,
|
||||
"max": 14448.45,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 52.4,
|
||||
"median": 52.42,
|
||||
"max": 52.45,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 5120.3,
|
||||
"median": 5124.5,
|
||||
"max": 5128.9,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"gpu": "AMD Strix Halo iGPU",
|
||||
"vram_gb": null,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 21.9,
|
||||
"prefill_tok_per_s": 1278.99,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4754.7,
|
||||
"decode_tok_per_s": 53.84,
|
||||
"load_ms": 172.3,
|
||||
"total_ms": 5008.5,
|
||||
"harness_wall_s": 5.057,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 21.9,
|
||||
"prefill_tok_per_s": 1275.71,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4755.7,
|
||||
"decode_tok_per_s": 53.83,
|
||||
"load_ms": 151.6,
|
||||
"total_ms": 4988.3,
|
||||
"harness_wall_s": 5.043,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 22.0,
|
||||
"prefill_tok_per_s": 1271.11,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4757.6,
|
||||
"decode_tok_per_s": 53.81,
|
||||
"load_ms": 154.4,
|
||||
"total_ms": 4993.2,
|
||||
"harness_wall_s": 5.048,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 93.1,
|
||||
"prefill_tok_per_s": 300.9,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 4756.6,
|
||||
"decode_tok_per_s": 53.82,
|
||||
"load_ms": 2272.4,
|
||||
"total_ms": 7250.0,
|
||||
"harness_wall_s": 7.341,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 1271.11,
|
||||
"median": 1275.71,
|
||||
"max": 1278.99,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 53.81,
|
||||
"median": 53.83,
|
||||
"max": 53.84,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 4988.3,
|
||||
"median": 4993.2,
|
||||
"max": 5008.5,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"gpu": "AMD Strix Halo iGPU",
|
||||
"vram_gb": null,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 97.2,
|
||||
"prefill_tok_per_s": 3282.33,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24566.1,
|
||||
"decode_tok_per_s": 10.42,
|
||||
"load_ms": 157.2,
|
||||
"total_ms": 24879.5,
|
||||
"harness_wall_s": 24.945,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 97.3,
|
||||
"prefill_tok_per_s": 3277.8,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24560.7,
|
||||
"decode_tok_per_s": 10.42,
|
||||
"load_ms": 162.3,
|
||||
"total_ms": 24880.5,
|
||||
"harness_wall_s": 24.943,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 97.4,
|
||||
"prefill_tok_per_s": 3274.93,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24559.5,
|
||||
"decode_tok_per_s": 10.42,
|
||||
"load_ms": 157.1,
|
||||
"total_ms": 24876.8,
|
||||
"harness_wall_s": 24.94,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 319,
|
||||
"prompt_eval_ms": 1052.0,
|
||||
"prefill_tok_per_s": 303.23,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24563.0,
|
||||
"decode_tok_per_s": 10.42,
|
||||
"load_ms": 167.6,
|
||||
"total_ms": 25843.0,
|
||||
"harness_wall_s": 25.896,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 3274.93,
|
||||
"median": 3277.8,
|
||||
"max": 3282.33,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 10.42,
|
||||
"median": 10.42,
|
||||
"max": 10.42,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 24876.8,
|
||||
"median": 24879.5,
|
||||
"max": 24880.5,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "matt-strix",
|
||||
"gpu": "AMD Strix Halo iGPU",
|
||||
"vram_gb": null,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 96.4,
|
||||
"prefill_tok_per_s": 290.33,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24049.7,
|
||||
"decode_tok_per_s": 10.64,
|
||||
"load_ms": 169.4,
|
||||
"total_ms": 24372.6,
|
||||
"harness_wall_s": 24.428,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 96.0,
|
||||
"prefill_tok_per_s": 291.74,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24046.4,
|
||||
"decode_tok_per_s": 10.65,
|
||||
"load_ms": 165.7,
|
||||
"total_ms": 24365.4,
|
||||
"harness_wall_s": 24.429,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 95.6,
|
||||
"prefill_tok_per_s": 292.74,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24065.8,
|
||||
"decode_tok_per_s": 10.64,
|
||||
"load_ms": 164.3,
|
||||
"total_ms": 24385.6,
|
||||
"harness_wall_s": 24.432,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 28,
|
||||
"prompt_eval_ms": 207.0,
|
||||
"prefill_tok_per_s": 135.28,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 24181.8,
|
||||
"decode_tok_per_s": 10.59,
|
||||
"load_ms": 5509.8,
|
||||
"total_ms": 30028.6,
|
||||
"harness_wall_s": 30.082,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 290.33,
|
||||
"median": 291.74,
|
||||
"max": 292.74,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 10.64,
|
||||
"median": 10.64,
|
||||
"max": 10.65,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 24365.4,
|
||||
"median": 24372.6,
|
||||
"max": 24385.6,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "pve197",
|
||||
"gpu": "Tesla V100-PCIE-32GB",
|
||||
"vram_gb": 32,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 118.0,
|
||||
"prefill_tok_per_s": 2695.59,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 32720.5,
|
||||
"decode_tok_per_s": 7.82,
|
||||
"load_ms": 475.8,
|
||||
"total_ms": 33548.1,
|
||||
"harness_wall_s": 33.555,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 118.3,
|
||||
"prefill_tok_per_s": 2689.01,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 31273.0,
|
||||
"decode_tok_per_s": 8.19,
|
||||
"load_ms": 492.5,
|
||||
"total_ms": 32116.6,
|
||||
"harness_wall_s": 32.123,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 117.3,
|
||||
"prefill_tok_per_s": 2711.41,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 33434.9,
|
||||
"decode_tok_per_s": 7.66,
|
||||
"load_ms": 496.0,
|
||||
"total_ms": 34298.7,
|
||||
"harness_wall_s": 34.305,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 3562.7,
|
||||
"prefill_tok_per_s": 89.26,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 32215.7,
|
||||
"decode_tok_per_s": 7.95,
|
||||
"load_ms": 491.7,
|
||||
"total_ms": 36521.3,
|
||||
"harness_wall_s": 36.529,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 2689.01,
|
||||
"median": 2695.59,
|
||||
"max": 2711.41,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 7.66,
|
||||
"median": 7.82,
|
||||
"max": 8.19,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 32116.6,
|
||||
"median": 33548.1,
|
||||
"max": 34298.7,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "pve197",
|
||||
"gpu": "Tesla V100-PCIE-32GB",
|
||||
"vram_gb": 32,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 112.5,
|
||||
"prefill_tok_per_s": 240.05,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 30919.5,
|
||||
"decode_tok_per_s": 8.28,
|
||||
"load_ms": 531.1,
|
||||
"total_ms": 31828.4,
|
||||
"harness_wall_s": 31.832,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 113.6,
|
||||
"prefill_tok_per_s": 237.6,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 30399.9,
|
||||
"decode_tok_per_s": 8.42,
|
||||
"load_ms": 479.4,
|
||||
"total_ms": 31242.1,
|
||||
"harness_wall_s": 31.246,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 111.0,
|
||||
"prefill_tok_per_s": 243.16,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 30712.9,
|
||||
"decode_tok_per_s": 8.34,
|
||||
"load_ms": 483.2,
|
||||
"total_ms": 31552.8,
|
||||
"harness_wall_s": 31.557,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 843.7,
|
||||
"prefill_tok_per_s": 32.0,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 30499.4,
|
||||
"decode_tok_per_s": 8.39,
|
||||
"load_ms": 5877.7,
|
||||
"total_ms": 37664.4,
|
||||
"harness_wall_s": 37.668,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 237.6,
|
||||
"median": 240.05,
|
||||
"max": 243.16,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 8.28,
|
||||
"median": 8.34,
|
||||
"max": 8.42,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 31242.1,
|
||||
"median": 31552.8,
|
||||
"max": 31828.4,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "pve197",
|
||||
"gpu": "Tesla V100-PCIE-32GB",
|
||||
"vram_gb": 32,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b-it-q4_K_M",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 728.7,
|
||||
"prefill_tok_per_s": 436.37,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 163511.0,
|
||||
"decode_tok_per_s": 1.57,
|
||||
"load_ms": 495.0,
|
||||
"total_ms": 164970.4,
|
||||
"harness_wall_s": 164.977,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 682.8,
|
||||
"prefill_tok_per_s": 465.71,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 168727.1,
|
||||
"decode_tok_per_s": 1.52,
|
||||
"load_ms": 545.3,
|
||||
"total_ms": 170207.4,
|
||||
"harness_wall_s": 170.214,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 950.0,
|
||||
"prefill_tok_per_s": 334.75,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 163102.9,
|
||||
"decode_tok_per_s": 1.57,
|
||||
"load_ms": 507.9,
|
||||
"total_ms": 164801.8,
|
||||
"harness_wall_s": 164.809,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 3883.3,
|
||||
"prefill_tok_per_s": 81.89,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 172199.4,
|
||||
"decode_tok_per_s": 1.49,
|
||||
"load_ms": 528.0,
|
||||
"total_ms": 176864.8,
|
||||
"harness_wall_s": 176.871,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 334.75,
|
||||
"median": 436.37,
|
||||
"max": 465.71,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 1.52,
|
||||
"median": 1.57,
|
||||
"max": 1.57,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 164801.8,
|
||||
"median": 164970.4,
|
||||
"max": 170207.4,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "pve197",
|
||||
"gpu": "Tesla V100-PCIE-32GB",
|
||||
"vram_gb": 32,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b-it-q4_K_M",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 665.6,
|
||||
"prefill_tok_per_s": 40.56,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 164631.1,
|
||||
"decode_tok_per_s": 1.55,
|
||||
"load_ms": 512.6,
|
||||
"total_ms": 166062.7,
|
||||
"harness_wall_s": 166.067,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 660.3,
|
||||
"prefill_tok_per_s": 40.89,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 159594.3,
|
||||
"decode_tok_per_s": 1.6,
|
||||
"load_ms": 523.6,
|
||||
"total_ms": 161012.3,
|
||||
"harness_wall_s": 161.016,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 887.8,
|
||||
"prefill_tok_per_s": 30.41,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 167584.3,
|
||||
"decode_tok_per_s": 1.53,
|
||||
"load_ms": 486.8,
|
||||
"total_ms": 169188.9,
|
||||
"harness_wall_s": 169.194,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 6642.4,
|
||||
"prefill_tok_per_s": 4.06,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 173530.1,
|
||||
"decode_tok_per_s": 1.48,
|
||||
"load_ms": 20142.1,
|
||||
"total_ms": 200836.5,
|
||||
"harness_wall_s": 200.841,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 30.41,
|
||||
"median": 40.56,
|
||||
"max": 40.89,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 1.53,
|
||||
"median": 1.55,
|
||||
"max": 1.6,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 161012.3,
|
||||
"median": 166062.7,
|
||||
"max": 169188.9,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,5 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"model_alias": "gemma4:26b-q8",
|
||||
"skipped": "model not available on host"
|
||||
}
|
||||
@@ -0,0 +1,5 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"model_alias": "gemma4:26b-q8",
|
||||
"skipped": "model not available on host"
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"gpu": "RTX 3090 Ti",
|
||||
"vram_gb": 24,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 12.5,
|
||||
"prefill_tok_per_s": 25397.83,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 1988.3,
|
||||
"decode_tok_per_s": 128.76,
|
||||
"load_ms": 319.7,
|
||||
"total_ms": 2461.3,
|
||||
"harness_wall_s": 2.465,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 13.3,
|
||||
"prefill_tok_per_s": 23848.87,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 1999.2,
|
||||
"decode_tok_per_s": 128.05,
|
||||
"load_ms": 343.2,
|
||||
"total_ms": 2500.0,
|
||||
"harness_wall_s": 2.503,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 14.2,
|
||||
"prefill_tok_per_s": 22372.04,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 1998.9,
|
||||
"decode_tok_per_s": 128.07,
|
||||
"load_ms": 326.0,
|
||||
"total_ms": 2479.5,
|
||||
"harness_wall_s": 2.483,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 96.4,
|
||||
"prefill_tok_per_s": 3298.64,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 2018.1,
|
||||
"decode_tok_per_s": 126.85,
|
||||
"load_ms": 328.7,
|
||||
"total_ms": 2578.7,
|
||||
"harness_wall_s": 2.582,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 22372.04,
|
||||
"median": 23848.87,
|
||||
"max": 25397.83,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 128.05,
|
||||
"median": 128.07,
|
||||
"max": 128.76,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 2461.3,
|
||||
"median": 2479.5,
|
||||
"max": 2500.0,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"gpu": "RTX 3090 Ti",
|
||||
"vram_gb": 24,
|
||||
"model_alias": "gemma4:26b",
|
||||
"model_tag": "gemma4:26b",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 19.8,
|
||||
"prefill_tok_per_s": 1366.3,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 2089.1,
|
||||
"decode_tok_per_s": 122.54,
|
||||
"load_ms": 361.8,
|
||||
"total_ms": 2614.4,
|
||||
"harness_wall_s": 2.617,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 12.9,
|
||||
"prefill_tok_per_s": 2088.79,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 1996.8,
|
||||
"decode_tok_per_s": 128.2,
|
||||
"load_ms": 341.7,
|
||||
"total_ms": 2489.2,
|
||||
"harness_wall_s": 2.491,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 13.1,
|
||||
"prefill_tok_per_s": 2062.75,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 1995.2,
|
||||
"decode_tok_per_s": 128.31,
|
||||
"load_ms": 330.7,
|
||||
"total_ms": 2473.9,
|
||||
"harness_wall_s": 2.476,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 47.7,
|
||||
"prefill_tok_per_s": 566.39,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 2014.5,
|
||||
"decode_tok_per_s": 127.08,
|
||||
"load_ms": 4346.8,
|
||||
"total_ms": 6739.3,
|
||||
"harness_wall_s": 6.752,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 1366.3,
|
||||
"median": 2062.75,
|
||||
"max": 2088.79,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 122.54,
|
||||
"median": 128.2,
|
||||
"max": 128.31,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 2473.9,
|
||||
"median": 2489.2,
|
||||
"max": 2614.4,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"gpu": "RTX 3090 Ti",
|
||||
"vram_gb": 24,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b-it-q4_K_M",
|
||||
"prompt_key": "long",
|
||||
"prompt_chars": 1614,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 38.2,
|
||||
"prefill_tok_per_s": 8318.85,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9390.5,
|
||||
"decode_tok_per_s": 27.26,
|
||||
"load_ms": 317.4,
|
||||
"total_ms": 9886.3,
|
||||
"harness_wall_s": 9.89,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 42.7,
|
||||
"prefill_tok_per_s": 7454.7,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9429.0,
|
||||
"decode_tok_per_s": 27.15,
|
||||
"load_ms": 316.0,
|
||||
"total_ms": 9929.8,
|
||||
"harness_wall_s": 9.933,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 41.2,
|
||||
"prefill_tok_per_s": 7716.07,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9477.4,
|
||||
"decode_tok_per_s": 27.01,
|
||||
"load_ms": 334.3,
|
||||
"total_ms": 9996.2,
|
||||
"harness_wall_s": 10.0,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 318,
|
||||
"prompt_eval_ms": 967.7,
|
||||
"prefill_tok_per_s": 328.62,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9339.6,
|
||||
"decode_tok_per_s": 27.41,
|
||||
"load_ms": 324.2,
|
||||
"total_ms": 10774.3,
|
||||
"harness_wall_s": 10.778,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 7454.7,
|
||||
"median": 7716.07,
|
||||
"max": 8318.85,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 27.01,
|
||||
"median": 27.15,
|
||||
"max": 27.26,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 9886.3,
|
||||
"median": 9929.8,
|
||||
"max": 9996.2,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
@@ -0,0 +1,81 @@
|
||||
{
|
||||
"host": "steel141",
|
||||
"gpu": "RTX 3090 Ti",
|
||||
"vram_gb": 24,
|
||||
"model_alias": "gemma4:31b",
|
||||
"model_tag": "gemma4:31b-it-q4_K_M",
|
||||
"prompt_key": "short",
|
||||
"prompt_chars": 78,
|
||||
"num_predict": 256,
|
||||
"num_ctx": 4096,
|
||||
"runs": [
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 44.1,
|
||||
"prefill_tok_per_s": 611.75,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9189.5,
|
||||
"decode_tok_per_s": 27.86,
|
||||
"load_ms": 373.7,
|
||||
"total_ms": 9759.8,
|
||||
"harness_wall_s": 9.762,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 40.4,
|
||||
"prefill_tok_per_s": 668.59,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9115.3,
|
||||
"decode_tok_per_s": 28.08,
|
||||
"load_ms": 340.5,
|
||||
"total_ms": 9635.7,
|
||||
"harness_wall_s": 9.638,
|
||||
"done_reason": "length"
|
||||
},
|
||||
{
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 40.9,
|
||||
"prefill_tok_per_s": 660.95,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9123.7,
|
||||
"decode_tok_per_s": 28.06,
|
||||
"load_ms": 325.8,
|
||||
"total_ms": 9626.6,
|
||||
"harness_wall_s": 9.629,
|
||||
"done_reason": "length"
|
||||
}
|
||||
],
|
||||
"warmup": {
|
||||
"prompt_tokens": 27,
|
||||
"prompt_eval_ms": 139.6,
|
||||
"prefill_tok_per_s": 193.44,
|
||||
"output_tokens": 256,
|
||||
"eval_ms": 9190.0,
|
||||
"decode_tok_per_s": 27.86,
|
||||
"load_ms": 13817.9,
|
||||
"total_ms": 23488.4,
|
||||
"harness_wall_s": 23.491,
|
||||
"done_reason": "length"
|
||||
},
|
||||
"summary": {
|
||||
"prefill_tok_per_s": {
|
||||
"min": 611.75,
|
||||
"median": 660.95,
|
||||
"max": 668.59,
|
||||
"n": 3
|
||||
},
|
||||
"decode_tok_per_s": {
|
||||
"min": 27.86,
|
||||
"median": 28.06,
|
||||
"max": 28.08,
|
||||
"n": 3
|
||||
},
|
||||
"total_ms": {
|
||||
"min": 9626.6,
|
||||
"median": 9635.7,
|
||||
"max": 9759.8,
|
||||
"n": 3
|
||||
}
|
||||
}
|
||||
}
|
||||
Reference in New Issue
Block a user