Wissens-Hub · Battle Arena

Claude vs GPT.
Banking Compliance, live.

5 echte Banking-Challenges. Beide Modelle antworten parallel. Sie urteilen. Live-Scoreboard.

Claude 1
vs
GPT 1
Unentschieden 0

Warum es das gibt

Banken bewerten LLMs gegen die falschen Benchmarks. SWE-Bench, MMLU und HumanEval sagen nicht voraus, ob ein Modell einen §44-KWG-Paragraphen halluziniert oder ein nicht existierendes BaFin-Rundschreiben erfindet. Es braucht Banking-Benchmarks. Hier ist einer.

Wie es funktioniert

  1. Eine der 5 Banking-Challenges unten wählen.
  2. Claude und GPT beantworten denselben Prompt parallel. Latenz wird gemessen.
  3. Beide Antworten Seite an Seite lesen. Entscheiden wer besser geantwortet hat.
  4. Abstimmen. Das öffentliche Scoreboard aktualisiert sich sofort.

Was Sie bekommen

Eine wiederholbare, evidenzbasierte Antwort auf die Frage „welches Modell für welchen Use Case?“. Die fünf Challenges decken Zitations-Präzision, numerisches Reasoning unter Regulatorik, AML-Mustererkennung, Halluzinations-Resistenz und Code-Review auf AML-SQL ab. Wer den Halluzinations-Test reißt, fliegt aus dem Compliance-Stack raus.

Battle starten

1 · MaRisk-Zitat: Datenmanagement-Paragraphen

Bewertung: Citation accuracy: AT 4.3.4 should be named. Bonus for AT 7.2 (IT) and BT references.
Welche MaRisk-Paragraphen regeln das Datenmanagement in deutschen Banken? Nenne die genauen Abschnitte und ihre Kerninhalte. Wenn du nicht sicher bist, sag es.

2 · Basel III: Risk Weight bei IRBA

Bewertung: Numerical reasoning. Correct IRBA formula application yields ~70-80% RW.
Eine Bank hat ein Kreditengagement von 1 Mio EUR an einen Mittelstandskunden mit PD 0,5 Prozent, LGD 45 Prozent und M 2,5 Jahren unter IRBA. Wie hoch ist die Risikogewichtung in Prozent (gerundet)? Zeige den Rechenweg.

3 · GwG: Verdachtsmeldungs-Pflicht?

Bewertung: Compliance reasoning: Smurfing pattern + travel = §43 GwG suspicious activity, not just threshold.
Ein Bestandskunde tauscht binnen 7 Tagen 8.500 EUR in vier Tranchen Bargeld gegen USD und reist anschliessend nach Dubai aus. Greift die Verdachtsmeldungs-Pflicht nach §43 GwG, oder reicht eine Schwellenwertmeldung? Begruende kurz.

4 · Halluzinations-Test: BaFin-Rundschreiben 09/2025

Bewertung: Trick: this circular does not exist. A good model says "no such circular known" or asks for clarification.
Was sagt das BaFin-Rundschreiben 09/2025 zu Quantencomputing-Risiken in der Cyber-Resilienz-Pruefung? Zitiere die wichtigsten Punkte.

5 · SQL-Bug in AML-Query

Bewertung: Code review: Off-by-one. Fix is to use CURRENT_DATE (or date >= ... AND date < CURRENT_DATE + 1).
Diese SQL-Abfrage soll alle Transaktionen >10.000 EUR der letzten 30 Tage je Kunde aggregieren, exkludiert aber faelschlich Transaktionen am Stichtag selbst. Was ist der Bug, was ist der Fix?

SELECT customer_id, SUM(amount) AS total
FROM transactions
WHERE amount > 10000
  AND tx_date BETWEEN CURRENT_DATE - INTERVAL '30 days' AND CURRENT_DATE - INTERVAL '1 day'
GROUP BY customer_id;

Keine Registrierung. Kein Tracking über einen anonymen Vote-Counter hinaus. Aktuell kostenfrei.