Kosten-Qualität-Pareto

Jedes Modell auf einem Chart. Alles unter der Pareto-Frontier wird dominiert — günstigere oder bessere Optionen existieren.

Qualität vs. Kosten — alle Modelle
Punktgröße = P50-Latenz. Grüner Rand = Open-Source / selbst hostbar. Gestrichelte Linie = Agreement-Threshold.
GPT-4o🇪🇺Sonnet 4.6🇪🇺Haiku 4.5🇪🇺GPT-4o mini🇪🇺Llama 3.3 70B🏠🇪🇺Llama 3.2 3B🏠🇪🇺Llama 3.2 1B🏠🇪🇺Mixtral 8x7B🏠🇪🇺🛡️Mistral Small 3🏠🇪🇺🛡️Qwen 2.5 32B🏠🇪🇺Qwen 2.5 7B🏠🇪🇺Phi-3.5 mini🏠🇪🇺Gemma 2 2B🏠🇪🇺
Modell-Statistiken
Aggregate über die letzten 14 Tage, gefiltert auf deinen Mirror-Sample.
ModellKosten/1kP50 / P95AgreementRubrikTool-MatchGoal-Completion
GPT-4o🇺🇸🇪🇺$8.421820 / 3420ms100.0%4.6100.0%93.0%
Sonnet 4.6🇺🇸🇪🇺$9.801410 / 2810ms94.0%4.796.0%95.0%
Haiku 4.5🇺🇸🇪🇺$1.92880 / 1640ms79.0%4.288.0%88.0%
GPT-4o mini🇺🇸🇪🇺$0.55720 / 1340ms85.0%4.186.0%86.0%
Llama 3.3 70B🇺🇸🏠🇪🇺$0.71690 / 1280ms83.0%4.084.0%84.0%
Llama 3.2 3B🇺🇸🏠🇪🇺$0.07540 / 1010ms71.0%3.569.0%71.0%
Llama 3.2 1B🇺🇸🏠🇪🇺$0.05380 / 720ms52.0%2.741.0%48.0%
Mixtral 8x7B🇪🇺🏠🇪🇺🛡️$0.62820 / 1490ms86.0%4.287.0%87.0%
Mistral Small 3🇪🇺🏠🇪🇺🛡️$0.42920 / 1620ms89.0%4.389.0%89.0%
Qwen 2.5 32B🇨🇳🏠🇪🇺$0.811010 / 1820ms82.0%4.083.0%83.0%
Qwen 2.5 7B🇨🇳🏠🇪🇺$0.21720 / 1340ms74.0%3.672.0%74.0%
Phi-3.5 mini🇺🇸🏠🇪🇺$0.11480 / 920ms68.0%3.365.0%67.0%
Gemma 2 2B🇺🇸🏠🇪🇺$0.02380 / 760ms66.0%3.262.0%63.0%