Overkill-Analyse & Souveränität

Pro Cluster: welches ist das günstigste und souveränste Modell, das deine aktuelle Qualität erreicht?

Kosten-ROI
$4,312/Monat Ersparnis
von $7,319$3,007 (59% Reduktion) · 94 % Konfidenz
Souveränitäts-Gewinn
63%des Traffics könnte EU-souverän / selbst gehostet laufen
US-Cloud-Abhängigkeit: 100 % → 37% · DSGVO-konform by Design
Optimierungs-Modus
Gewichtet Kosten und Souveränität gleich. Behält proprietäre Modelle, wo Qualität am wichtigsten ist.
ClusterVolumenAktuelles ModellAktuelle KostenEmpfehlungNeue KostenErsparnis
Bestell-Status
agent · order-status
3,214/MonatGPT-4o🇺🇸$1,823Mistral Small 3🇪🇺🏠🇪🇺🛡️
🛡️ Souveränität + günstig. Beste Trade-Off.
$198−$1,625
Rückerstattung
agent · refund
1,547/MonatGPT-4o🇺🇸$1,240Sonnet 4.6🇺🇸🇪🇺
Refund-Logik braucht Sonnet — Souveränitäts-Trade-Off hier akzeptabel.
$1,086−$154
Versand-Probleme
agent · shipping
1,429/MonatGPT-4o🇺🇸$752Haiku 4.5🇺🇸🇪🇺
Günstiger als Sonnet bei gleicher Qualität.
$198−$554
Komplexe Multi-Step-Fälle
agent · complex-investigation
712/MonatGPT-4o🇺🇸$902Sonnet 4.6🇺🇸🇪🇺
Höchster Stakes-Cluster: Sonnet behalten.
$814−$88
Konto & Abrechnung
agent · billing
481/MonatGPT-4o🇺🇸$318Mistral Small 3🇪🇺🏠🇪🇺🛡️
🛡️ Souverän ohne Kosten-Penalty.
$92−$226
Policy & FAQ
chat · policy-faq
2,126/MonatGPT-4o🇺🇸$1,102Llama 3.2 3B🇺🇸🏠🇪🇺
🏠 Mikro + gut genug für FAQs.
$41−$1,061
Produkt-Information
chat · product-info
1,289/MonatGPT-4o🇺🇸$673Mistral Small 3🇪🇺🏠🇪🇺🛡️
🛡️ Souverän, ehrliche Antworten.
$188−$485
Beschwerden (empathie-lastig)
chat · complaints
712/MonatGPT-4o🇺🇸$422Sonnet 4.6🇺🇸🇪🇺
Empathie-kritisch: Sonnet bleibt.
$388−$34
Small Talk & Begrüßungen
chat · small-talk
357/MonatGPT-4o🇺🇸$87Llama 3.2 1B🇺🇸🏠🇪🇺
Mikro reicht.
$2−$85
Gesamt / Monat$7,319$3,007$4,312 (59%)
Open-Source-Spotlight
Llama 3.2 3B🇺🇸🏠🇪🇺41× billiger als GPT-4o

Auf Policy-FAQ- und Shipping-Clustern erreicht Llama 3.2 3B 94 % Agreement mit GPT-4o. Das verschiebt ~1.800 $/Monat auf ein Modell, das auf einer einzigen Consumer-GPU läuft.

Llama 3.2 1B🇺🇸🏠🇪🇺100× billiger · läuft auf Handy

Small-Talk und Begrüßungen sind purer Overkill auf GPT-4o. Selbst Llama 3.2 1B kommt hier auf 0,97 Agreement. Latenz- Gewinn gratis (380 ms vs 1,8 s).

Souveränitäts-Spotlight
Mistral Small 3🇪🇺🏠🇪🇺🛡️🛡️ Vollständig souverän

Mistral Small 3 erreicht 96 % Agreement auf Bestell-Status (3.214 Anfragen/Monat). Made in France. Selbst hostbar in deiner EU-Cloud — kein US-Vendor im Daten-Pfad.

Mixtral 8x7B🇪🇺🏠🇪🇺🛡️🛡️ Vollständig souverän

Mixtral 8×7B bewältigt Multi-Step-Untersuchungen. Höhere Kosten als Sonnet — aber jedes Byte bleibt in deiner Jurisdiktion.

Routing-Konfig generieren (LiteLLM)
Direkt in deinen LiteLLM-Router einfügen. Souveränitäts-Constraints sind kodiert als allowed_regions: [eu].
model_list:
  - model_name: order-status
    litellm_params:
      model: "mistral/mistral-small-3"
      # 🛡️ Vollständig souverän
      allowed_regions: ["eu"]
  - model_name: refund
    litellm_params:
      model: "anthropic/claude-sonnet-4-6"
      
  - model_name: shipping
    litellm_params:
      model: "anthropic/claude-haiku-4-5"
      
  - model_name: complex-investigation
    litellm_params:
      model: "anthropic/claude-sonnet-4-6"
      
  - model_name: billing
    litellm_params:
      model: "mistral/mistral-small-3"
      # 🛡️ Vollständig souverän
      allowed_regions: ["eu"]
  - model_name: policy-faq
    litellm_params:
      model: "meta/llama-3.2-3b"
      
  - model_name: product-info
    litellm_params:
      model: "mistral/mistral-small-3"
      # 🛡️ Vollständig souverän
      allowed_regions: ["eu"]
  - model_name: complaints
    litellm_params:
      model: "anthropic/claude-sonnet-4-6"
      
  - model_name: small-talk
    litellm_params:
      model: "meta/llama-3.2-1b"
      

router_settings:
  routing_strategy: "rule-based"
  rules:
    - if: cluster == "order-status"
      route_to: "order-status"
    - if: cluster == "refund"
      route_to: "refund"
    - if: cluster == "shipping"
      route_to: "shipping"
    - if: cluster == "complex-investigation"
      route_to: "complex-investigation"
    - if: cluster == "billing"
      route_to: "billing"
    - if: cluster == "policy-faq"
      route_to: "policy-faq"
    - if: cluster == "product-info"
      route_to: "product-info"
    - if: cluster == "complaints"
      route_to: "complaints"
    - if: cluster == "small-talk"
      route_to: "small-talk"
Wie wir diese Empfehlungen berechnen
  1. Alle gespiegelten Anfragen via Embedding-Similarity clustern (k-Means auf User-Message + System-Prompt).
  2. Pro (Cluster × Shadow-Modell) den Composite-Score berechnen: 0.4·embedding + 0.4·pairwise_judge + 0.2·tool_match.
  3. Pareto-Frontier (Kosten vs. Composite-Score) pro Cluster berechnen.
  4. Der "Ausgewogen"-Modus addiert einen Souveränitäts-Bonus von 10 % der Modellkosten für 🛡️-Modelle — verschiebt Gleichstände zugunsten souveräner Optionen.
  5. Empfehle das günstigste Modell auf der Pareto-Frontier über dem Agreement-Threshold (Standard 0,88).