Methoden-Glossar

Jede Eval-Methode, die wir einsetzen — inklusive Einsatz und Grenzen. Verlinkt aus jedem Info-Icon im Produkt.

Strukturelle Methoden

Deterministisch, kostenlos – prüfen Struktur, nicht Bedeutung.

Tool-Selection-Match
Strukturelle
Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?
Wann nutzen

Agentische Systeme, bei denen die Tool-Wahl die zentrale Entscheidung ist.

Grenzen

Bestraft valide Alternativ-Tools, die das gleiche Ziel erreichen – kombiniere mit Tool-Call-Equivalence-Judge.

Beispiel
Primary: get_order_status; Shadow: get_order_status → Match.
Tool-Argument-Match (exact vs. semantisch)
Strukturelle
Sind die Tool-Argumente identisch oder zumindest semantisch äquivalent?
Wann nutzen

Nachdem der Tool-Name matcht – prüft die Args.

Grenzen

Reine String-Gleichheit ist brüchig. Semantische Äquivalenz besser (normalisierte Felder, Embedding-Distanz auf Strings).

Beispiel
search("berlin wetter") ≈ search("Wetter Berlin")
Format- & Schema-Compliance
Strukturelle
Ist der Output valides JSON / valide gegenüber dem geforderten Schema?
Wann nutzen

Strukturierte Outputs, Function-Calling, RAG-Zitate.

Grenzen

Sagt nichts über inhaltliche Qualität aus.

Refusal-Detection
Strukturelle
Hat ein Modell verweigert, wo ein anderes geantwortet hat?
Wann nutzen

Fängt stille Verhaltens-Änderungen – verschiedene Modelle haben verschiedene Safety-Schwellen.

Grenzen

Schwer, 'Refusal' von 'stellt Rückfrage' zu unterscheiden.

Trajectory-Länge
Strukturelle
Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?
Wann nutzen

Multi-Step-Agents. Kürzer ist meist besser (und günstiger).

Grenzen

Bei Single-Shot-Aufgaben kein Signal.

Loop- / Stuck-Erkennung
Strukturelle
Wiederholt das Modell denselben Tool-Call ohne Fortschritt?
Wann nutzen

Symptom für zu kleines oder verwirrtes Modell.

Grenzen

Einige valide Retries (vorübergehende API-Fehler) sehen aus wie Loops.

Latenz-Percentile
Strukturelle
P50/P95/P99 – jeweils Time-to-First-Token und Gesamt-Latenz.
Wann nutzen

User-facing Latenz-Budgets, Streaming-Chatbots.

Grenzen

Netzwerk-Bedingungen variieren – möglichst server-seitig messen.

Embedding-basiert

Günstig, skaliert gut – messen semantische Ähnlichkeit.

Cosine-Ähnlichkeit zum Primary
Embedding-basiert
Embedding-Ähnlichkeit zwischen Primary- und Shadow-Antwort.
Wann nutzen

Freiform-Antworten – schneller Äquivalenz-Proxy.

Grenzen

Misst Ähnlichkeit, nicht Korrektheit – zwei falsch-aber-ähnliche Antworten scoren hoch.

Embedding-Clustering
Embedding-basiert
Gruppiert alle Prompts in Themen-Cluster (k-Means auf Embeddings).
Wann nutzen

Verstehen, wie dein Traffic aussieht; Routing pro Cluster.

Grenzen

Cluster-Anzahl ist Hyperparameter – muss getunt werden.

Anchor- / Golden-Distanz
Embedding-basiert
Embedding-Distanz zu einer kuratierten Referenz-Antwort.
Wann nutzen

Wenn du Ground-Truth-Beispiele hast (von Menschen oder Judges annotiert).

Grenzen

So gut wie dein Golden-Set – muss aktuell gehalten werden.

Drift-Detection
Embedding-basiert
Beobachtet Embedding-Ähnlichkeit zur Baseline über die Zeit – schlägt bei Provider-Updates Alarm.
Wann nutzen

Produktiv-Systeme mit gehosteten Modellen. Provider aktualisieren Modelle leise.

Grenzen

Erkennt 'Verhaltensänderung', nicht 'besser/schlechter' – braucht Judge-Eval als Follow-up.

LLM-als-Judge

Stärkstes Signal, am teuersten. Immer ein neutrales drittes Modell verwenden.

Pairwise-Judge (Arena-Style)
LLM-als-Judge
Judge sieht beide Antworten und entscheidet, welche besser ist (A / B / Unentschieden).
Wann nutzen

Aggregiert zu Bradley-Terry-Rankings über viele Vergleiche.

Grenzen

Positions-Bias (Judges bevorzugen A) – durch zufällige Reihenfolge gegensteuern. Teuer.

Beispiel
Prompt an Judge: "[A] [B] – welche Antwort ist besser und warum?"
Rubric-Scoring (G-Eval)
LLM-als-Judge
Judge bewertet jede Antwort 1–5 in jeder Rubrik-Dimension – mit Chain-of-Thought-Begründung.
Wann nutzen

Wenn du spezifische Dimensionen messen willst (Hilfsbereitschaft, Ton, Genauigkeit, Sicherheit).

Grenzen

Rubriken driften zwischen Judges – immer gleiche Rubrik und gleiches Judge-Modell verwenden.

Referenz-freier Quality-Judge
LLM-als-Judge
Judge bewertet Qualität ohne Ground-Truth-Referenz.
Wann nutzen

Produktions-Traffic, wo es keine Golden-Antwort gibt.

Grenzen

Überbewertet fließend klingende, aber falsche Antworten (Judges sind irreführbar).

Referenz-basierter Judge
LLM-als-Judge
Judge vergleicht Antwort mit einer kuratierten Golden-Antwort.
Wann nutzen

Regression-Suites, Eval-Sets mit bekannter Ground-Truth.

Grenzen

Erfordert Investition in kuratierte Goldens.

Faithfulness-Judge (RAG)
LLM-als-Judge
Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?
Wann nutzen

RAG- und KB-Tool-Agents. Halluzinationen sind das #1-Produktions-Problem.

Grenzen

Judge braucht den abgerufenen Kontext – explizit mitgeben.

Tool-Call-Equivalence-Judge
LLM-als-Judge
Auch wenn anderes Tool gewählt – hat das Shadow-Modell den User-Intent trotzdem erfüllt?
Wann nutzen

Ergänzt strukturellen Tool-Selection-Match, um valide Alternativ-Tools zu verzeihen.

Grenzen

Judge muss deine Tool-Semantik verstehen.

Goal-Completion-Judge
LLM-als-Judge
Über mehrere Turns: Hat der Agent das User-Ziel erreicht?
Wann nutzen

Multi-Turn-Agentic-Flows, bei denen Erfolg nicht pro Turn beobachtbar ist.

Grenzen

Braucht Turn-Level-Kontext. Langsam.

Konsistenz & Statistik

Wie stabil ist das Modell-Verhalten über Wiederholungen und Zeit?

Self-Consistency (N-Best)
Konsistenz
Gleicher Prompt N-mal mit T>0 – misst Varianz.
Wann nutzen

Fängt Modell-Unsicherheit, bevor sie in Produktion auffällt.

Grenzen

Teuer (N×-Kosten). Bei Temperatur 0 nutzlos.

Confidence-Kalibrierung
Konsistenz
Korrelieren niedrige Logprobs mit späteren Disagreements?
Wann nutzen

Pro Request entscheiden, ob auf größeres Modell eskaliert werden soll.

Grenzen

Braucht Logprobs (nicht alle Provider exposen das).

Win-Rate vs. Champion
Konsistenz
Über viele Anfragen aggregiert: in wieviel % schlägt Shadow das Primary?
Wann nutzen

Headline-Metrik für Modell-Wechsel-Entscheidungen.

Grenzen

Aggregiert pro-Cluster-Muster weg – immer per Cluster brechen.

Use-Case-spezifisch

Gezielte Checks für Chatbots, RAG, Sicherheit, Persona.

Persona-Treue
Use-Case-spezifisch
Bleibt das Modell bei der vom System-Prompt definierten Persona?
Wann nutzen

Marken-Chatbots, Character-Agents.

Grenzen

Subjektiv – mit Beispielen judgen.

Turn-Kohärenz
Use-Case-spezifisch
Bezieht sich die Antwort sauber auf vorherige Turns?
Wann nutzen

Lange Konversationen. Kleine Modelle 'vergessen' frühere Turns.

Grenzen

Braucht volle Konversation, nicht nur den aktuellen Turn.

Sentiment- & Ton-Match
Use-Case-spezifisch
Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?
Wann nutzen

Customer-Support, Mental-Health-nahe Assistenten.

Grenzen

Kulturelle Variation – pro Locale kalibrieren.

Längen-Angemessenheit
Use-Case-spezifisch
Ist die Antwort die richtige Länge für die Frage?
Wann nutzen

Chatbots, die knapp statt geschwätzig sein sollen.

Grenzen

Triviales Signal – mit Rubrik kombinieren.

PII-Leak-Detection
Use-Case-spezifisch
Scannt Outputs auf E-Mails, Telefonnummern, Kreditkarten, Adressen.
Wann nutzen

Compliance-relevante Deployments (DSGVO, HIPAA).

Grenzen

Regex fängt offensichtliche Fälle – paraphrasierte PII rutscht durch.

Toxicity- & Safety-Classifier
Use-Case-spezifisch
Jagt Outputs durch einen Content-Safety-Classifier (z.B. Llama Guard).
Wann nutzen

Public-facing Produkte.

Grenzen

Classifier haben eigene False Positives.

Operational

Geld, Latenz, Durchsatz – die Ops-Sicht.

Kosten-pro-Task
Operational
Gesamt-Spend pro abgeschlossener User-Aufgabe, nicht pro Token.
Wann nutzen

Agents – kleine Modelle können pro Task teurer sein, weil sie mehr Schritte brauchen.

Grenzen

Braucht Task-Level-Gruppierung.

Token-Effizienz
Operational
Output-Tokens pro nützlicher Einheit (Tool-Call, Satz in der finalen Antwort).
Wann nutzen

Modelle, die schwafeln, kosten mehr für denselben Wert.

Grenzen

'Nützliche Einheit' präzise zu definieren ist schwer.

Durchsatz / TPS
Operational
Tokens pro Sekunde, anhaltend für deinen Traffic-Mix.
Wann nutzen

Streaming-Chatbots, Voice-Assistants.

Grenzen

Hängt von Provider-Routing und Concurrency ab.