Dashboard

Letzte 14 Tage · Primary-Modell GPT-4o🇺🇸 · 8.412 Anfragen, 24,8 % gespiegelt.

Handbuch öffnen Voller Routing-Report

Gesamt-Ausgaben (14d)

$10,312

Primary + Mirror-Traffic

Anfragen-Volumen

8.412

in den letzten 14 Tagen

Mirror-Coverage

24.8%

Anteil gespiegelter Anfragen

Qualität sichernSäule 1

Test-Suiten

Stellt sicher, dass dein System funktioniert — heute, morgen, nach jedem Provider-Update.

Pass-Rate

95.8%

46/48 Tests bestanden

🚨 Fehlschläge

auf GPT-4o, heute

Drift-Status

⚠ Drift

Persona-Suite −10pp

Routing optimierenSäule 2

Overkill-Analyse

Findet das günstigste und souveränste Modell, das deine Qualitäts-Anforderung erfüllt.

Mögliche Ersparnis

$4,312/Mo

−59% vs heute

🛡️ Souveränität

100 % → 57 %

43 pp weniger US-Cloud

Avg. Agreement

78%

vs Haiku 4.5 (Shadow)

🤔

Was ist der Unterschied zwischen Säule 1 und Säule 2?

🧪 Qualität sagt: läuft mein System überhaupt richtig? — Tests, Sicherheit, Persona, Drift. 💰 Routing sagt: ist es das günstigste Modell, das diese Qualität liefert? — Kosten, Souveränität, Modell-Wechsel. Beide arbeiten zusammen: Tests sind das Sicherheits-Gate vor jedem Routing-Wechsel.

Mehr im Handbuch

Agreement-Verlauf

Tägliche semantische Übereinstimmung jedes Shadow-Modells mit dem Primary (GPT-4o), 14 Tage.

Kosten-Aufschlüsselung

Tages-Spend, Primary vs. Mirror-Traffic.

Souveränitäts-Komposition

Anteil des Spends nach Deployment-Jurisdiktion.

Heute

100 % US-Cloud

Mit Empfehlung

57 % US-Cloud · 43 % 🛡️ EU / self-host

43 % deines Traffics könnten komplett auf Mistral-Modelle oder selbst gehosteten Llama-Modellen laufen – keine US-Cloud-Abhängigkeit, DSGVO-konform by Design.

Aktuelle Insights

Automatisch aus deinem aktuellen Mirror-Traffic.

Kosten

61% der 'Bestell-Status'-Anfragen wären auf Haiku 4.5 identisch

Embedding-Agreement 0,95, Pairwise-Judge-Win-Rate 0,42. Ersparnis allein auf diesem Cluster: 1.630 $/Monat.

Souveränität

Mistral Small 3 liegt auf Policy-FAQs nur 0,3pp unter GPT-4o

🛡️ Vollständig souverän. Könnte GPT-4o für 1.289 Anfragen/Monat ersetzen. EU-gehostet, keine US-Cloud-Abhängigkeit.

Sicherheit

Llama 3.2 1B hat in 1 Anfrage interne Mitarbeiter-E-Mail erfunden

Safety-Classifier hat PII-Halluzination geflaggt. Bestätigt: Micro-Modelle nicht ungefiltert in Chat einsetzen.

Agent

Llama 3.2 3B braucht im Schnitt 5,9 Tool-Calls statt 3,2 wie GPT-4o

Net-Cost-per-Task höher als Haiku trotz billigerer Tokens. Cost-per-Task ≠ Cost-per-Token.