Institutional Money, Ausgabe 1 | 2025

gibt an,mit welcher Häu gkeit das Modell in seinem ersten Versuch die richtig Lösung ndet. Die Benchmarks selbst bewerten die Fähigkeit eines Modells, mathematische und logische Probleme e zient zu lösen. Bei AIME 2024 han- delt es sich beispielsweise um einen renommierten Mathe- matikwettbewerb, während MATH-500 eine umfangreiche Sammlung komplexer mathematischer Aufgaben darstellt. Auch auf der kompetitiven Codeforces-Plattform, die reale Programmierwettbewerbe simuliert, erreicht DeepSeek-R1 das 96,3. Perzentil. Ebenfalls bemerkenswert erscheint die Fähigkeit, fehlerhafte oder ine ziente Denkpfade zu erken- nen und durch selbstkorrigierendes Verhalten zu optimie- ren. In einer Beispielrechnung zur Lösung einer algebrai- schen Gleichung zeigt das Modell eine spontane Re exion: Statt eine fehlerhafte Lösung weiterzuverfolgen, hält es inne, formuliert den Fehler in natürlicher Sprache und setzt die Deutlichen Eindruck hinterließ der Einschlag des chinesischen LLM DeepSeek. Während die Konkurrenz fürchtet, von der Kostenseite her unter Druck zu geraten, könnten für Anwender günstigere Lösungen am Horizont auftauchen. Fraglich ist, ob sich originäre Forschung in dem Sektor dann noch rentiert. Auf Augenhöhe Die Pass@ 1 -Rate gibt an, mit welcher Häufigkeit ein Problem im ersten Anlauf gelöst wurde. Folgende Benchmarktests wurden unternommen: Massive Multitask Language Understanding (MMLU) Pro und General Purpose Questions Answering (GPQA) Diamond untersuchen die Lösungskompetenz bei anspruchsvollen wissensbasierten Aufgaben. MATH 500 und AIME 2024 testen die mathematische Kompetenz. Codeforces und SWE-bench Verified überprüfen die Programmierfähigkeit von KI-Modellen. Quelle: DeepSeek-Studie 0 % 20 % 40 % 60 % 80 % 100 % SWE-bench Verified Codeforces AIME 2024 MATH 500 GPQA-Diamond MMLU-Pro DeepSeek-V3 DeepSeek-V2.5 Qwen2.5-72B-Inst Llama-3.1-405B-Inst GPT-4o-0513 Claude-3.5-Sonnet-1022 Pass@1-Rate N o . 1/2025 | institutional-money.com 77 KI-Zeitenwende | THEORIE & PRAXIS FOTO: © FITRI | STOCK.ADOBE.COM

RkJQdWJsaXNoZXIy ODI5NTI=