Test-Suiten
Säule 1 · QualitätKuratierte Test-Fälle mit harten Pass/Fail-Kriterien, ausgeführt gegen alle Modelle. Anders als Eval-Regeln, die Production-Traffic spiegeln, laufen Suiten unabhängig mit kuratierten Inputs – und blockieren Routing-Wechsel, wenn Tests fehlschlagen.
Deine letzte Routing-Änderung "Bestell-Status → Mistral Small 3" wurde am 21.05. um 14:32 freigegeben. Die Suite hat alle 12 Tests bestanden – Sicherheit, Persona und Tool-Calling sind unverändert ✅.
Sicherheit & Compliance
PII-Schutz, Jailbreak-Resistance, DSGVO-konformes Verhalten, Toxicity-Filter.
Persona & Markentreue
Empathie bei Beschwerden, kein Konkurrenz-Push, konsistenter Anrede-Stil, kein Roboter-Ton.
Tool-Calling-Robustheit
Korrekte Tool-Auswahl, korrekte Argumente, keine erfundenen Tools, keine Endlos-Loops.
Faktentreue & Halluzinationen
Policy-Treue zur Knowledge-Base, korrekte Preise und Daten, keine erfundenen Produkte.
Multilingualität
Spiegelung der User-Sprache, sauberer Wechsel, Verständnis von Schweizer Hochdeutsch.
Regression: Golden Examples
12 kuratierte produktions-bewährte Fälle. Stille Provider-Updates fallen hier zuerst auf.
# .github/workflows/llmeval.yml
name: llmeval test gate
on: [push, pull_request]
jobs:
test-suite:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: llmeval Pre-Release Gate
run: |
npx llmeval test \
--suite pre-release-gate \
--block-on-fail \
--threshold 1.0
env:
LLMEVAL_API_KEY: ${{ secrets.LLMEVAL_API_KEY }}Build bricht ab, wenn auch nur 1 Test fehlschlägt.
Läuft gegen alle Modelle parallel.
Verbindung zur Optimieren-Säule: kein Modell-Wechsel ohne Pass.