Overkill-Analyse & Souveränität
Pro Cluster: welches ist das günstigste und souveränste Modell, das deine aktuelle Qualität erreicht?
Kosten-ROI
$4,312/Monat Ersparnis
von $7,319 → $3,007 (59% Reduktion) · 94 % Konfidenz
Souveränitäts-Gewinn
63%des Traffics könnte EU-souverän / selbst gehostet laufen
US-Cloud-Abhängigkeit: 100 % → 37% · DSGVO-konform by Design
Optimierungs-Modus
Gewichtet Kosten und Souveränität gleich. Behält proprietäre Modelle, wo Qualität am wichtigsten ist.
Open-Source-Spotlight
Llama 3.2 3B🇺🇸🏠🇪🇺41× billiger als GPT-4o
Auf Policy-FAQ- und Shipping-Clustern erreicht Llama 3.2 3B 94 % Agreement mit GPT-4o. Das verschiebt ~1.800 $/Monat auf ein Modell, das auf einer einzigen Consumer-GPU läuft.
Llama 3.2 1B🇺🇸🏠🇪🇺100× billiger · läuft auf Handy
Small-Talk und Begrüßungen sind purer Overkill auf GPT-4o. Selbst Llama 3.2 1B kommt hier auf 0,97 Agreement. Latenz- Gewinn gratis (380 ms vs 1,8 s).
Souveränitäts-Spotlight
Mistral Small 3🇪🇺🏠🇪🇺🛡️🛡️ Vollständig souverän
Mistral Small 3 erreicht 96 % Agreement auf Bestell-Status (3.214 Anfragen/Monat). Made in France. Selbst hostbar in deiner EU-Cloud — kein US-Vendor im Daten-Pfad.
Mixtral 8x7B🇪🇺🏠🇪🇺🛡️🛡️ Vollständig souverän
Mixtral 8×7B bewältigt Multi-Step-Untersuchungen. Höhere Kosten als Sonnet — aber jedes Byte bleibt in deiner Jurisdiktion.
Routing-Konfig generieren (LiteLLM)
Direkt in deinen LiteLLM-Router einfügen. Souveränitäts-Constraints sind kodiert als
allowed_regions: [eu].model_list:
- model_name: order-status
litellm_params:
model: "mistral/mistral-small-3"
# 🛡️ Vollständig souverän
allowed_regions: ["eu"]
- model_name: refund
litellm_params:
model: "anthropic/claude-sonnet-4-6"
- model_name: shipping
litellm_params:
model: "anthropic/claude-haiku-4-5"
- model_name: complex-investigation
litellm_params:
model: "anthropic/claude-sonnet-4-6"
- model_name: billing
litellm_params:
model: "mistral/mistral-small-3"
# 🛡️ Vollständig souverän
allowed_regions: ["eu"]
- model_name: policy-faq
litellm_params:
model: "meta/llama-3.2-3b"
- model_name: product-info
litellm_params:
model: "mistral/mistral-small-3"
# 🛡️ Vollständig souverän
allowed_regions: ["eu"]
- model_name: complaints
litellm_params:
model: "anthropic/claude-sonnet-4-6"
- model_name: small-talk
litellm_params:
model: "meta/llama-3.2-1b"
router_settings:
routing_strategy: "rule-based"
rules:
- if: cluster == "order-status"
route_to: "order-status"
- if: cluster == "refund"
route_to: "refund"
- if: cluster == "shipping"
route_to: "shipping"
- if: cluster == "complex-investigation"
route_to: "complex-investigation"
- if: cluster == "billing"
route_to: "billing"
- if: cluster == "policy-faq"
route_to: "policy-faq"
- if: cluster == "product-info"
route_to: "product-info"
- if: cluster == "complaints"
route_to: "complaints"
- if: cluster == "small-talk"
route_to: "small-talk"
Wie wir diese Empfehlungen berechnen
- Alle gespiegelten Anfragen via Embedding-Similarity clustern (k-Means auf User-Message + System-Prompt).
- Pro (Cluster × Shadow-Modell) den Composite-Score berechnen:
0.4·embedding + 0.4·pairwise_judge + 0.2·tool_match. - Pareto-Frontier (Kosten vs. Composite-Score) pro Cluster berechnen.
- Der "Ausgewogen"-Modus addiert einen Souveränitäts-Bonus von 10 % der Modellkosten für 🛡️-Modelle — verschiebt Gleichstände zugunsten souveräner Optionen.
- Empfehle das günstigste Modell auf der Pareto-Frontier über dem Agreement-Threshold (Standard 0,88).