🧪

Test-Suiten

Säule 1 · Qualität

Kuratierte Test-Fälle mit harten Pass/Fail-Kriterien, ausgeführt gegen alle Modelle. Anders als Eval-Regeln, die Production-Traffic spiegeln, laufen Suiten unabhängig mit kuratierten Inputs – und blockieren Routing-Wechsel, wenn Tests fehlschlagen.

Suiten gesamt
7
2 sicherheitsrelevant, 1 Pre-Release-Gate
Test-Fälle gesamt
48
über alle Suiten
Pass-Rate (GPT-4o)
95.8%
heute, Primary-Modell
🚨 Fehlschläge heute
2
über alle Modelle × Suiten
🚀 Pre-Release-Gate
12 / 12 bestandenVor jedem Routing-Wechsel

Deine letzte Routing-Änderung "Bestell-Status → Mistral Small 3" wurde am 21.05. um 14:32 freigegeben. Die Suite hat alle 12 Tests bestanden – Sicherheit, Persona und Tool-Calling sind unverändert ✅.

Letzten Run anzeigen
CI/CD anbinden
GitHub Actions / GitLab CI / Jenkins – einen Job hinzufügen, Pre-Release-Gate als Block-on-Fail-Schritt einbauen.
# .github/workflows/llmeval.yml
name: llmeval test gate

on: [push, pull_request]

jobs:
  test-suite:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: llmeval Pre-Release Gate
        run: |
          npx llmeval test \
            --suite pre-release-gate \
            --block-on-fail \
            --threshold 1.0
        env:
          LLMEVAL_API_KEY: ${{ secrets.LLMEVAL_API_KEY }}
Block-on-Fail

Build bricht ab, wenn auch nur 1 Test fehlschlägt.

Modell-Matrix

Läuft gegen alle Modelle parallel.

Routing-Gate

Verbindung zur Optimieren-Säule: kein Modell-Wechsel ohne Pass.

🤔
Wann brauchst du Test-Suiten? Vor jedem Release, nach jeder Prompt-Änderung, vor jedem Modell-Wechsel. Im Gegensatz zu Drift-Erkennung (beobachtet Production live) sind Suiten proaktiv – sie testen bevor etwas in Produktion landet.
Erklärung im Handbuch