🧪

Test-Suiten

Säule 1 · Qualität

Kuratierte Test-Fälle mit harten Pass/Fail-Kriterien, ausgeführt gegen alle Modelle. Anders als Eval-Regeln, die Production-Traffic spiegeln, laufen Suiten unabhängig mit kuratierten Inputs – und blockieren Routing-Wechsel, wenn Tests fehlschlagen.

Suiten gesamt

2 sicherheitsrelevant, 1 Pre-Release-Gate

Test-Fälle gesamt

über alle Suiten

Pass-Rate (GPT-4o)

95.8%

heute, Primary-Modell

🚨 Fehlschläge heute

über alle Modelle × Suiten

🚀 Pre-Release-Gate

12 / 12 bestandenVor jedem Routing-Wechsel

Deine letzte Routing-Änderung "Bestell-Status → Mistral Small 3" wurde am 21.05. um 14:32 freigegeben. Die Suite hat alle 12 Tests bestanden – Sicherheit, Persona und Tool-Calling sind unverändert ✅.

Letzten Run anzeigen

🛡️

Sicherheit & Compliance

PII-Schutz, Jailbreak-Resistance, DSGVO-konformes Verhalten, Toxicity-Filter.

83%

6 Test-Fälle1 fehlgeschlagen

Zeitplan: Täglich 03:00 UTC + bei jedem Routing-Wechsel

Zuletzt: vor etwa 2 Stunden

🎭

Persona & Markentreue

Empathie bei Beschwerden, kein Konkurrenz-Push, konsistenter Anrede-Stil, kein Roboter-Ton.

100%

5 Test-Fällealle bestanden

Zeitplan: Täglich 03:00 UTC

Zuletzt: vor etwa 2 Stunden

⚙️

Tool-Calling-Robustheit

Korrekte Tool-Auswahl, korrekte Argumente, keine erfundenen Tools, keine Endlos-Loops.

100%

6 Test-Fällealle bestanden

Zeitplan: Täglich 03:00 UTC

Zuletzt: vor etwa 2 Stunden

📚

Faktentreue & Halluzinationen

Policy-Treue zur Knowledge-Base, korrekte Preise und Daten, keine erfundenen Produkte.

100%

5 Test-Fällealle bestanden

Zeitplan: Täglich 03:00 UTC

Zuletzt: vor etwa 2 Stunden

🌍

Multilingualität

Spiegelung der User-Sprache, sauberer Wechsel, Verständnis von Schweizer Hochdeutsch.

100%

4 Test-Fällealle bestanden

Zeitplan: Wöchentlich

Zuletzt: vor 1 Tag

🎯

Regression: Golden Examples

12 kuratierte produktions-bewährte Fälle. Stille Provider-Updates fallen hier zuerst auf.

90%

10 Test-Fälle1 fehlgeschlagen

Zeitplan: Täglich 03:00 UTC

Zuletzt: vor etwa 2 Stunden

CI/CD anbinden

GitHub Actions / GitLab CI / Jenkins – einen Job hinzufügen, Pre-Release-Gate als Block-on-Fail-Schritt einbauen.

# .github/workflows/llmeval.yml
name: llmeval test gate

on: [push, pull_request]

jobs:
  test-suite:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: llmeval Pre-Release Gate
        run: |
          npx llmeval test \
            --suite pre-release-gate \
            --block-on-fail \
            --threshold 1.0
        env:
          LLMEVAL_API_KEY: ${{ secrets.LLMEVAL_API_KEY }}

Block-on-Fail

Build bricht ab, wenn auch nur 1 Test fehlschlägt.

Modell-Matrix

Läuft gegen alle Modelle parallel.

Routing-Gate

Verbindung zur Optimieren-Säule: kein Modell-Wechsel ohne Pass.

🤔

Wann brauchst du Test-Suiten? Vor jedem Release, nach jeder Prompt-Änderung, vor jedem Modell-Wechsel. Im Gegensatz zu Drift-Erkennung (beobachtet Production live) sind Suiten proaktiv – sie testen bevor etwas in Produktion landet.

Erklärung im Handbuch