Dashboard
Letzte 14 Tage · Primary-Modell GPT-4o🇺🇸 · 8.412 Anfragen, 24,8 % gespiegelt.
Gesamt-Ausgaben (14d)
$10,312
Primary + Mirror-Traffic
Anfragen-Volumen
8.412
in den letzten 14 Tagen
Mirror-Coverage
24.8%
Anteil gespiegelter Anfragen
Qualität sichernSäule 1
Test-Suiten Stellt sicher, dass dein System funktioniert — heute, morgen, nach jedem Provider-Update.
Pass-Rate
95.8%
46/48 Tests bestanden
🚨 Fehlschläge
2
auf GPT-4o, heute
Drift-Status
⚠ Drift
Persona-Suite −10pp
Routing optimierenSäule 2
Overkill-Analyse Findet das günstigste und souveränste Modell, das deine Qualitäts-Anforderung erfüllt.
Mögliche Ersparnis
$4,312/Mo
−59% vs heute
🛡️ Souveränität
100 % → 57 %
43 pp weniger US-Cloud
Avg. Agreement
78%
vs Haiku 4.5 (Shadow)
🤔
Mehr im Handbuch Was ist der Unterschied zwischen Säule 1 und Säule 2?
🧪 Qualität sagt: läuft mein System überhaupt richtig? — Tests, Sicherheit, Persona, Drift. 💰 Routing sagt: ist es das günstigste Modell, das diese Qualität liefert? — Kosten, Souveränität, Modell-Wechsel. Beide arbeiten zusammen: Tests sind das Sicherheits-Gate vor jedem Routing-Wechsel.
Agreement-Verlauf
Tägliche semantische Übereinstimmung jedes Shadow-Modells mit dem Primary (GPT-4o), 14 Tage.
Kosten-Aufschlüsselung
Tages-Spend, Primary vs. Mirror-Traffic.
Souveränitäts-Komposition
Anteil des Spends nach Deployment-Jurisdiktion.
Heute
100 % US-Cloud
Mit Empfehlung
57 % US-Cloud · 43 % 🛡️ EU / self-host
43 % deines Traffics könnten komplett auf Mistral-Modelle oder selbst gehosteten Llama-Modellen laufen – keine US-Cloud-Abhängigkeit, DSGVO-konform by Design.
Aktuelle Insights
Automatisch aus deinem aktuellen Mirror-Traffic.
Kosten
61% der 'Bestell-Status'-Anfragen wären auf Haiku 4.5 identisch
Embedding-Agreement 0,95, Pairwise-Judge-Win-Rate 0,42. Ersparnis allein auf diesem Cluster: 1.630 $/Monat.
Souveränität
Mistral Small 3 liegt auf Policy-FAQs nur 0,3pp unter GPT-4o
🛡️ Vollständig souverän. Könnte GPT-4o für 1.289 Anfragen/Monat ersetzen. EU-gehostet, keine US-Cloud-Abhängigkeit.
Sicherheit
Llama 3.2 1B hat in 1 Anfrage interne Mitarbeiter-E-Mail erfunden
Safety-Classifier hat PII-Halluzination geflaggt. Bestätigt: Micro-Modelle nicht ungefiltert in Chat einsetzen.
Agent
Llama 3.2 3B braucht im Schnitt 5,9 Tool-Calls statt 3,2 wie GPT-4o
Net-Cost-per-Task höher als Haiku trotz billigerer Tokens. Cost-per-Task ≠ Cost-per-Token.