Kosten-Qualität-Pareto

Jedes Modell auf einem Chart. Alles unter der Pareto-Frontier wird dominiert — günstigere oder bessere Optionen existieren.

Nur souveräne hervorheben 🛡️ 🏠

Qualität vs. Kosten — alle Modelle

Punktgröße = P50-Latenz. Grüner Rand = Open-Source / selbst hostbar. Gestrichelte Linie = Agreement-Threshold.

GPT-4o🇪🇺Sonnet 4.6🇪🇺Haiku 4.5🇪🇺GPT-4o mini🇪🇺Llama 3.3 70B🏠🇪🇺Llama 3.2 3B🏠🇪🇺Llama 3.2 1B🏠🇪🇺Mixtral 8x7B🏠🇪🇺🛡️Mistral Small 3🏠🇪🇺🛡️Qwen 2.5 32B🏠🇪🇺Qwen 2.5 7B🏠🇪🇺Phi-3.5 mini🏠🇪🇺Gemma 2 2B🏠🇪🇺

Modell-Statistiken

Aggregate über die letzten 14 Tage, gefiltert auf deinen Mirror-Sample.

Modell	Kosten/1k	P50 / P95	Agreement	Rubrik	Tool-Match	Goal-Completion
GPT-4o🇺🇸🇪🇺	$8.42	1820 / 3420ms	100.0%	4.6	100.0%	93.0%
Sonnet 4.6🇺🇸🇪🇺	$9.80	1410 / 2810ms	94.0%	4.7	96.0%	95.0%
Haiku 4.5🇺🇸🇪🇺	$1.92	880 / 1640ms	79.0%	4.2	88.0%	88.0%
GPT-4o mini🇺🇸🇪🇺	$0.55	720 / 1340ms	85.0%	4.1	86.0%	86.0%
Llama 3.3 70B🇺🇸🏠🇪🇺	$0.71	690 / 1280ms	83.0%	4.0	84.0%	84.0%
Llama 3.2 3B🇺🇸🏠🇪🇺	$0.07	540 / 1010ms	71.0%	3.5	69.0%	71.0%
Llama 3.2 1B🇺🇸🏠🇪🇺	$0.05	380 / 720ms	52.0%	2.7	41.0%	48.0%
Mixtral 8x7B🇪🇺🏠🇪🇺🛡️	$0.62	820 / 1490ms	86.0%	4.2	87.0%	87.0%
Mistral Small 3🇪🇺🏠🇪🇺🛡️	$0.42	920 / 1620ms	89.0%	4.3	89.0%	89.0%
Qwen 2.5 32B🇨🇳🏠🇪🇺	$0.81	1010 / 1820ms	82.0%	4.0	83.0%	83.0%
Qwen 2.5 7B🇨🇳🏠🇪🇺	$0.21	720 / 1340ms	74.0%	3.6	72.0%	74.0%
Phi-3.5 mini🇺🇸🏠🇪🇺	$0.11	480 / 920ms	68.0%	3.3	65.0%	67.0%
Gemma 2 2B🇺🇸🏠🇪🇺	$0.02	380 / 760ms	66.0%	3.2	62.0%	63.0%