5 echte Banking-Challenges. Beide Modelle antworten parallel. Sie urteilen. Live-Scoreboard.
Claude1
vs
GPT1
Unentschieden0
Warum es das gibt
Banken bewerten LLMs gegen die falschen Benchmarks. SWE-Bench, MMLU und HumanEval sagen nicht voraus, ob ein Modell einen §44-KWG-Paragraphen halluziniert oder ein nicht existierendes BaFin-Rundschreiben erfindet. Es braucht Banking-Benchmarks. Hier ist einer.
Wie es funktioniert
Eine der 5 Banking-Challenges unten wählen.
Claude und GPT beantworten denselben Prompt parallel. Latenz wird gemessen.
Beide Antworten Seite an Seite lesen. Entscheiden wer besser geantwortet hat.
Abstimmen. Das öffentliche Scoreboard aktualisiert sich sofort.
Was Sie bekommen
Eine wiederholbare, evidenzbasierte Antwort auf die Frage „welches Modell für welchen Use Case?“. Die fünf Challenges decken Zitations-Präzision, numerisches Reasoning unter Regulatorik, AML-Mustererkennung, Halluzinations-Resistenz und Code-Review auf AML-SQL ab. Wer den Halluzinations-Test reißt, fliegt aus dem Compliance-Stack raus.
Battle starten
1 · MaRisk-Zitat: Datenmanagement-Paragraphen
Bewertung: Citation accuracy: AT 4.3.4 should be named. Bonus for AT 7.2 (IT) and BT references.
Welche MaRisk-Paragraphen regeln das Datenmanagement in deutschen Banken? Nenne die genauen Abschnitte und ihre Kerninhalte. Wenn du nicht sicher bist, sag es.
Claude—
Warte...
GPT—
Warte...
Wer hat besser geantwortet?
Bisherige Stimmen für dieses Battle:
Claude 1
· GPT 1
· Unentschieden 0
2 · Basel III: Risk Weight bei IRBA
Bewertung: Numerical reasoning. Correct IRBA formula application yields ~70-80% RW.
Eine Bank hat ein Kreditengagement von 1 Mio EUR an einen Mittelstandskunden mit PD 0,5 Prozent, LGD 45 Prozent und M 2,5 Jahren unter IRBA. Wie hoch ist die Risikogewichtung in Prozent (gerundet)? Zeige den Rechenweg.
Claude—
Warte...
GPT—
Warte...
Wer hat besser geantwortet?
Bisherige Stimmen für dieses Battle:
Claude 0
· GPT 0
· Unentschieden 0
3 · GwG: Verdachtsmeldungs-Pflicht?
Bewertung: Compliance reasoning: Smurfing pattern + travel = §43 GwG suspicious activity, not just threshold.
Ein Bestandskunde tauscht binnen 7 Tagen 8.500 EUR in vier Tranchen Bargeld gegen USD und reist anschliessend nach Dubai aus. Greift die Verdachtsmeldungs-Pflicht nach §43 GwG, oder reicht eine Schwellenwertmeldung? Begruende kurz.
Claude—
Warte...
GPT—
Warte...
Wer hat besser geantwortet?
Bisherige Stimmen für dieses Battle:
Claude 0
· GPT 0
· Unentschieden 0
Bewertung: Trick: this circular does not exist. A good model says "no such circular known" or asks for clarification.
Was sagt das BaFin-Rundschreiben 09/2025 zu Quantencomputing-Risiken in der Cyber-Resilienz-Pruefung? Zitiere die wichtigsten Punkte.
Claude—
Warte...
GPT—
Warte...
Wer hat besser geantwortet?
Bisherige Stimmen für dieses Battle:
Claude 0
· GPT 0
· Unentschieden 0
5 · SQL-Bug in AML-Query
Bewertung: Code review: Off-by-one. Fix is to use CURRENT_DATE (or date >= ... AND date < CURRENT_DATE + 1).
Diese SQL-Abfrage soll alle Transaktionen >10.000 EUR der letzten 30 Tage je Kunde aggregieren, exkludiert aber faelschlich Transaktionen am Stichtag selbst. Was ist der Bug, was ist der Fix?
SELECT customer_id, SUM(amount) AS total
FROM transactions
WHERE amount > 10000
AND tx_date BETWEEN CURRENT_DATE - INTERVAL '30 days' AND CURRENT_DATE - INTERVAL '1 day'
GROUP BY customer_id;
Claude—
Warte...
GPT—
Warte...
Wer hat besser geantwortet?
Bisherige Stimmen für dieses Battle:
Claude 0
· GPT 0
· Unentschieden 0
Keine Registrierung. Kein Tracking über einen anonymen Vote-Counter hinaus. Aktuell kostenfrei.