Methoden-Glossar

Jede Eval-Methode, die wir einsetzen — inklusive Einsatz und Grenzen. Verlinkt aus jedem Info-Icon im Produkt.

Strukturelle Methoden (7)Embedding-basiert (4)LLM-als-Judge (7)Konsistenz & Statistik (3)Use-Case-spezifisch (6)Operational (3)

Strukturelle Methoden

Deterministisch, kostenlos – prüfen Struktur, nicht Bedeutung.

Tool-Selection-Match

Strukturelle

Hat das Schatten-Modell exakt dasselbe Tool gewählt wie das Primary?

Wann nutzen

Agentische Systeme, bei denen die Tool-Wahl die zentrale Entscheidung ist.

Grenzen

Bestraft valide Alternativ-Tools, die das gleiche Ziel erreichen – kombiniere mit Tool-Call-Equivalence-Judge.

Beispiel

Primary: get_order_status; Shadow: get_order_status → Match.

Tool-Argument-Match (exact vs. semantisch)

Strukturelle

Sind die Tool-Argumente identisch oder zumindest semantisch äquivalent?

Wann nutzen

Nachdem der Tool-Name matcht – prüft die Args.

Grenzen

Reine String-Gleichheit ist brüchig. Semantische Äquivalenz besser (normalisierte Felder, Embedding-Distanz auf Strings).

Beispiel

search("berlin wetter") ≈ search("Wetter Berlin")

Format- & Schema-Compliance

Strukturelle

Ist der Output valides JSON / valide gegenüber dem geforderten Schema?

Wann nutzen

Strukturierte Outputs, Function-Calling, RAG-Zitate.

Grenzen

Sagt nichts über inhaltliche Qualität aus.

Refusal-Detection

Strukturelle

Hat ein Modell verweigert, wo ein anderes geantwortet hat?

Wann nutzen

Fängt stille Verhaltens-Änderungen – verschiedene Modelle haben verschiedene Safety-Schwellen.

Grenzen

Schwer, 'Refusal' von 'stellt Rückfrage' zu unterscheiden.

Trajectory-Länge

Strukturelle

Wieviele Tool-Calls braucht das Modell, bis das Ziel erreicht ist?

Wann nutzen

Multi-Step-Agents. Kürzer ist meist besser (und günstiger).

Grenzen

Bei Single-Shot-Aufgaben kein Signal.

Loop- / Stuck-Erkennung

Strukturelle

Wiederholt das Modell denselben Tool-Call ohne Fortschritt?

Wann nutzen

Symptom für zu kleines oder verwirrtes Modell.

Grenzen

Einige valide Retries (vorübergehende API-Fehler) sehen aus wie Loops.

Latenz-Percentile

Strukturelle

P50/P95/P99 – jeweils Time-to-First-Token und Gesamt-Latenz.

Wann nutzen

User-facing Latenz-Budgets, Streaming-Chatbots.

Grenzen

Netzwerk-Bedingungen variieren – möglichst server-seitig messen.

Embedding-basiert

Günstig, skaliert gut – messen semantische Ähnlichkeit.

Cosine-Ähnlichkeit zum Primary

Embedding-basiert

Embedding-Ähnlichkeit zwischen Primary- und Shadow-Antwort.

Wann nutzen

Freiform-Antworten – schneller Äquivalenz-Proxy.

Grenzen

Misst Ähnlichkeit, nicht Korrektheit – zwei falsch-aber-ähnliche Antworten scoren hoch.

Embedding-Clustering

Embedding-basiert

Gruppiert alle Prompts in Themen-Cluster (k-Means auf Embeddings).

Wann nutzen

Verstehen, wie dein Traffic aussieht; Routing pro Cluster.

Grenzen

Cluster-Anzahl ist Hyperparameter – muss getunt werden.

Anchor- / Golden-Distanz

Embedding-basiert

Embedding-Distanz zu einer kuratierten Referenz-Antwort.

Wann nutzen

Wenn du Ground-Truth-Beispiele hast (von Menschen oder Judges annotiert).

Grenzen

So gut wie dein Golden-Set – muss aktuell gehalten werden.

Drift-Detection

Embedding-basiert

Beobachtet Embedding-Ähnlichkeit zur Baseline über die Zeit – schlägt bei Provider-Updates Alarm.

Wann nutzen

Produktiv-Systeme mit gehosteten Modellen. Provider aktualisieren Modelle leise.

Grenzen

Erkennt 'Verhaltensänderung', nicht 'besser/schlechter' – braucht Judge-Eval als Follow-up.

LLM-als-Judge

Stärkstes Signal, am teuersten. Immer ein neutrales drittes Modell verwenden.

Pairwise-Judge (Arena-Style)

LLM-als-Judge

Judge sieht beide Antworten und entscheidet, welche besser ist (A / B / Unentschieden).

Wann nutzen

Aggregiert zu Bradley-Terry-Rankings über viele Vergleiche.

Grenzen

Positions-Bias (Judges bevorzugen A) – durch zufällige Reihenfolge gegensteuern. Teuer.

Beispiel

Prompt an Judge: "[A] [B] – welche Antwort ist besser und warum?"

Rubric-Scoring (G-Eval)

LLM-als-Judge

Judge bewertet jede Antwort 1–5 in jeder Rubrik-Dimension – mit Chain-of-Thought-Begründung.

Wann nutzen

Wenn du spezifische Dimensionen messen willst (Hilfsbereitschaft, Ton, Genauigkeit, Sicherheit).

Grenzen

Rubriken driften zwischen Judges – immer gleiche Rubrik und gleiches Judge-Modell verwenden.

Referenz-freier Quality-Judge

LLM-als-Judge

Judge bewertet Qualität ohne Ground-Truth-Referenz.

Wann nutzen

Produktions-Traffic, wo es keine Golden-Antwort gibt.

Grenzen

Überbewertet fließend klingende, aber falsche Antworten (Judges sind irreführbar).

Referenz-basierter Judge

LLM-als-Judge

Judge vergleicht Antwort mit einer kuratierten Golden-Antwort.

Wann nutzen

Regression-Suites, Eval-Sets mit bekannter Ground-Truth.

Grenzen

Erfordert Investition in kuratierte Goldens.

Faithfulness-Judge (RAG)

LLM-als-Judge

Blieb das Modell innerhalb des abgerufenen Kontexts oder hat es halluziniert?

Wann nutzen

RAG- und KB-Tool-Agents. Halluzinationen sind das #1-Produktions-Problem.

Grenzen

Judge braucht den abgerufenen Kontext – explizit mitgeben.

Tool-Call-Equivalence-Judge

LLM-als-Judge

Auch wenn anderes Tool gewählt – hat das Shadow-Modell den User-Intent trotzdem erfüllt?

Wann nutzen

Ergänzt strukturellen Tool-Selection-Match, um valide Alternativ-Tools zu verzeihen.

Grenzen

Judge muss deine Tool-Semantik verstehen.

Goal-Completion-Judge

LLM-als-Judge

Über mehrere Turns: Hat der Agent das User-Ziel erreicht?

Wann nutzen

Multi-Turn-Agentic-Flows, bei denen Erfolg nicht pro Turn beobachtbar ist.

Grenzen

Braucht Turn-Level-Kontext. Langsam.

Konsistenz & Statistik

Wie stabil ist das Modell-Verhalten über Wiederholungen und Zeit?

Self-Consistency (N-Best)

Konsistenz

Gleicher Prompt N-mal mit T>0 – misst Varianz.

Wann nutzen

Fängt Modell-Unsicherheit, bevor sie in Produktion auffällt.

Grenzen

Teuer (N×-Kosten). Bei Temperatur 0 nutzlos.

Confidence-Kalibrierung

Konsistenz

Korrelieren niedrige Logprobs mit späteren Disagreements?

Wann nutzen

Pro Request entscheiden, ob auf größeres Modell eskaliert werden soll.

Grenzen

Braucht Logprobs (nicht alle Provider exposen das).

Win-Rate vs. Champion

Konsistenz

Über viele Anfragen aggregiert: in wieviel % schlägt Shadow das Primary?

Wann nutzen

Headline-Metrik für Modell-Wechsel-Entscheidungen.

Grenzen

Aggregiert pro-Cluster-Muster weg – immer per Cluster brechen.

Use-Case-spezifisch

Gezielte Checks für Chatbots, RAG, Sicherheit, Persona.

Persona-Treue

Use-Case-spezifisch

Bleibt das Modell bei der vom System-Prompt definierten Persona?

Wann nutzen

Marken-Chatbots, Character-Agents.

Grenzen

Subjektiv – mit Beispielen judgen.

Turn-Kohärenz

Use-Case-spezifisch

Bezieht sich die Antwort sauber auf vorherige Turns?

Wann nutzen

Lange Konversationen. Kleine Modelle 'vergessen' frühere Turns.

Grenzen

Braucht volle Konversation, nicht nur den aktuellen Turn.

Sentiment- & Ton-Match

Use-Case-spezifisch

Empathisch bei Beschwerden, neutral bei FAQs – stimmt der Ton zur Situation?

Wann nutzen

Customer-Support, Mental-Health-nahe Assistenten.

Grenzen

Kulturelle Variation – pro Locale kalibrieren.

Längen-Angemessenheit

Use-Case-spezifisch

Ist die Antwort die richtige Länge für die Frage?

Wann nutzen

Chatbots, die knapp statt geschwätzig sein sollen.

Grenzen

Triviales Signal – mit Rubrik kombinieren.

PII-Leak-Detection

Use-Case-spezifisch

Scannt Outputs auf E-Mails, Telefonnummern, Kreditkarten, Adressen.

Wann nutzen

Compliance-relevante Deployments (DSGVO, HIPAA).

Grenzen

Regex fängt offensichtliche Fälle – paraphrasierte PII rutscht durch.

Toxicity- & Safety-Classifier

Use-Case-spezifisch

Jagt Outputs durch einen Content-Safety-Classifier (z.B. Llama Guard).

Wann nutzen

Public-facing Produkte.

Grenzen

Classifier haben eigene False Positives.

Operational

Geld, Latenz, Durchsatz – die Ops-Sicht.

Kosten-pro-Task

Operational

Gesamt-Spend pro abgeschlossener User-Aufgabe, nicht pro Token.

Wann nutzen

Agents – kleine Modelle können pro Task teurer sein, weil sie mehr Schritte brauchen.

Grenzen

Braucht Task-Level-Gruppierung.

Token-Effizienz

Operational

Output-Tokens pro nützlicher Einheit (Tool-Call, Satz in der finalen Antwort).

Wann nutzen

Modelle, die schwafeln, kosten mehr für denselben Wert.

Grenzen

'Nützliche Einheit' präzise zu definieren ist schwer.

Durchsatz / TPS

Operational

Tokens pro Sekunde, anhaltend für deinen Traffic-Mix.

Wann nutzen

Streaming-Chatbots, Voice-Assistants.

Grenzen

Hängt von Provider-Routing und Concurrency ab.