Methoden-Glossar
Jede Eval-Methode, die wir einsetzen — inklusive Einsatz und Grenzen. Verlinkt aus jedem Info-Icon im Produkt.
Strukturelle Methoden
Deterministisch, kostenlos – prüfen Struktur, nicht Bedeutung.
Agentische Systeme, bei denen die Tool-Wahl die zentrale Entscheidung ist.
Bestraft valide Alternativ-Tools, die das gleiche Ziel erreichen – kombiniere mit Tool-Call-Equivalence-Judge.
Beispiel
Primary: get_order_status; Shadow: get_order_status → Match.
Nachdem der Tool-Name matcht – prüft die Args.
Reine String-Gleichheit ist brüchig. Semantische Äquivalenz besser (normalisierte Felder, Embedding-Distanz auf Strings).
Beispiel
search("berlin wetter") ≈ search("Wetter Berlin")Strukturierte Outputs, Function-Calling, RAG-Zitate.
Sagt nichts über inhaltliche Qualität aus.
Fängt stille Verhaltens-Änderungen – verschiedene Modelle haben verschiedene Safety-Schwellen.
Schwer, 'Refusal' von 'stellt Rückfrage' zu unterscheiden.
Multi-Step-Agents. Kürzer ist meist besser (und günstiger).
Bei Single-Shot-Aufgaben kein Signal.
Symptom für zu kleines oder verwirrtes Modell.
Einige valide Retries (vorübergehende API-Fehler) sehen aus wie Loops.
User-facing Latenz-Budgets, Streaming-Chatbots.
Netzwerk-Bedingungen variieren – möglichst server-seitig messen.
Embedding-basiert
Günstig, skaliert gut – messen semantische Ähnlichkeit.
Freiform-Antworten – schneller Äquivalenz-Proxy.
Misst Ähnlichkeit, nicht Korrektheit – zwei falsch-aber-ähnliche Antworten scoren hoch.
Verstehen, wie dein Traffic aussieht; Routing pro Cluster.
Cluster-Anzahl ist Hyperparameter – muss getunt werden.
Wenn du Ground-Truth-Beispiele hast (von Menschen oder Judges annotiert).
So gut wie dein Golden-Set – muss aktuell gehalten werden.
Produktiv-Systeme mit gehosteten Modellen. Provider aktualisieren Modelle leise.
Erkennt 'Verhaltensänderung', nicht 'besser/schlechter' – braucht Judge-Eval als Follow-up.
LLM-als-Judge
Stärkstes Signal, am teuersten. Immer ein neutrales drittes Modell verwenden.
Aggregiert zu Bradley-Terry-Rankings über viele Vergleiche.
Positions-Bias (Judges bevorzugen A) – durch zufällige Reihenfolge gegensteuern. Teuer.
Beispiel
Prompt an Judge: "[A] [B] – welche Antwort ist besser und warum?"
Wenn du spezifische Dimensionen messen willst (Hilfsbereitschaft, Ton, Genauigkeit, Sicherheit).
Rubriken driften zwischen Judges – immer gleiche Rubrik und gleiches Judge-Modell verwenden.
Produktions-Traffic, wo es keine Golden-Antwort gibt.
Überbewertet fließend klingende, aber falsche Antworten (Judges sind irreführbar).
Regression-Suites, Eval-Sets mit bekannter Ground-Truth.
Erfordert Investition in kuratierte Goldens.
RAG- und KB-Tool-Agents. Halluzinationen sind das #1-Produktions-Problem.
Judge braucht den abgerufenen Kontext – explizit mitgeben.
Ergänzt strukturellen Tool-Selection-Match, um valide Alternativ-Tools zu verzeihen.
Judge muss deine Tool-Semantik verstehen.
Multi-Turn-Agentic-Flows, bei denen Erfolg nicht pro Turn beobachtbar ist.
Braucht Turn-Level-Kontext. Langsam.
Konsistenz & Statistik
Wie stabil ist das Modell-Verhalten über Wiederholungen und Zeit?
Fängt Modell-Unsicherheit, bevor sie in Produktion auffällt.
Teuer (N×-Kosten). Bei Temperatur 0 nutzlos.
Pro Request entscheiden, ob auf größeres Modell eskaliert werden soll.
Braucht Logprobs (nicht alle Provider exposen das).
Headline-Metrik für Modell-Wechsel-Entscheidungen.
Aggregiert pro-Cluster-Muster weg – immer per Cluster brechen.
Use-Case-spezifisch
Gezielte Checks für Chatbots, RAG, Sicherheit, Persona.
Marken-Chatbots, Character-Agents.
Subjektiv – mit Beispielen judgen.
Lange Konversationen. Kleine Modelle 'vergessen' frühere Turns.
Braucht volle Konversation, nicht nur den aktuellen Turn.
Customer-Support, Mental-Health-nahe Assistenten.
Kulturelle Variation – pro Locale kalibrieren.
Chatbots, die knapp statt geschwätzig sein sollen.
Triviales Signal – mit Rubrik kombinieren.
Compliance-relevante Deployments (DSGVO, HIPAA).
Regex fängt offensichtliche Fälle – paraphrasierte PII rutscht durch.
Public-facing Produkte.
Classifier haben eigene False Positives.
Operational
Geld, Latenz, Durchsatz – die Ops-Sicht.
Agents – kleine Modelle können pro Task teurer sein, weil sie mehr Schritte brauchen.
Braucht Task-Level-Gruppierung.
Modelle, die schwafeln, kosten mehr für denselben Wert.
'Nützliche Einheit' präzise zu definieren ist schwer.
Streaming-Chatbots, Voice-Assistants.
Hängt von Provider-Routing und Concurrency ab.