Institutional Money, Ausgabe 1 | 2025

einer schleichenden Homogenisierung und Verwässerung von Wissen beitragen. „Subtile Unwahrheiten, Übersimpli- zierungen und Verzerrungen sind das eigentliche Risiko“, warnen die Autoren. Große KI-Modelle sind laut den Auto- ren mehr als bloße Rechenmaschinen – sie agieren als eine Art künstliche Sprecher, die aufgrund der menschlichen Neigung zur Anthropomorphisierung als kompetente Wis- sensinstanzen wahrgenommen werden. Die Autoren argu- mentieren, dass dies ein neues, bis dato unzureichend regu- liertes Risiko scha e: „Careless Speech“, also ein Mangel an Sorgfalt im Umgang mit der Wahrheit. LLMs „erzählen“ Wissen in einer Weise, die scheinbar neutral und objektiv ist, in Wirklichkeit aber durch Trainingsdaten, Designentschei- dungen und Reinforcement Learning aus menschlichem Feedback (RLHF) verzerrt wird. Keine Wahrheitspflicht Ein laut den Autoren entscheidender Punkt: Wahrheit ist nur eine von vielen Optimierungsgrößen für Sprachmodelle – neben Faktoren wie technischer E zienz, Kundenakzep- tanz oder Rentabilität. Eine generelle P icht zur Wahrheits- treue, so die Analyse, ist im aktuellen rechtlichen Rahmen nicht verankert. Zwar enthalten europäische Gesetze wie der AI Act oder der Digital Services Act gewisse regulatorische Ansätze, doch sie adressieren keine übergreifende Wahrheits- p icht für KI-Anbieter. „Selbst in hochsensiblen Bereichen wie Wissenschaft, Bibliotheken oder Archiven existieren nur vage Vorgaben zur Wahrung der Wahrheit“, stellt Co-Auto- rin Wachter fest. Ein präzedenzloser Fall in Deutschland, in dem Google für di amierende Autovervollständigungsvor- schläge haftbar gemacht wurde, könnte allerdings einen möglichen Weg aufzeigen, um juristische Verantwortlichkei- ten für KI-Modelle zu de nieren. Dass LLMs ein inhärentes Wahrheitsproblem haben, zeigt sich besonders deutlich in ihrem Umgang mit Referenzen. „Solche Systeme liefern oft falsche oder kontextlose Quellenangaben“, heißt es in der Studie. Ohne echtes Textverständnis und ohne internes Modell für Wissen oder Expertise „tun sie stets ihr Bestes, überzeugend zu klingen“, so Wachter. Insgesamt macht sich die gebürtige Österreicherin „Sorgen, wie es mit der globa- len AI Governance weitergeht. Leider haben US und UK die Pariser Deklaration nicht unterschrieben. Hier ging es vor allem um einen Pledge für o ene, inklusive, ethische und nachhaltige KI. Diese Werte wurden als ,kontra‘ Inno- vation gesehen, was leider komplett verfehlt ist, da diese Wer- te das Grundgerüst für AI sein sollten. Für mich ist das eines von vielen Zeichen, dass Global Governance sehr schwer werden wird. Für uns wird es wichtig sein, sich nicht auf dieses Race to the Bottom einzulassen, denn niemand gewinnt, wenn wir unethische, undurchsichtige, diskriminie- rende und den Planeten zerstörende KI in unserer Gesell- schaft haben“, so die Oxford-Forscherin, die auf dem Institu- tional Money Kongress einen Vortrag zum Thema KI und institutionelles Investment halten wird. Zusammenfassend lässt sich sagen, dass die Behauptun- gen der chinesischen KI-Schmiede DeepSeek bezüglich der wahren Kosten überzogen sein könnten, die zugrunde lie- gende Methodik legt aber nahe, dass die Einsparungse ekte durch Destillationse ekte massiv sind. Das wirft für die Platzhirsche natürlich die Frage auf, ob die kostspieligen KI- Trainings, die sie an der Spitze halten, angesichts des zeitlich begrenzten und nur mehr marginal bestehenden Vor- sprungs noch lukrativ sind.Wenn es außerdemmöglich ist, relativ günstig KI-Modelle quasi aus dem Hut zu zaubern und den Markt zu überschwemmen, wird die Frage nach Ethik und Wahrheit bei der Anwendung dieser Schlüssel- technologie umso virulenter. HANS WEITMAYR Destillation boostet die Performance Diverse destillierte DeepSeek-Variationen erzielen beachtlich bessere Ergebnisse also die KI-Pioniere aus den USA. Modell AIME 2024 MATH-500 GPQA Diamond LiveCode Bench Codeforces Pass@1 cons@64 Pass@1 Pass@1 Pass@1 Rating GPT-4o-0513 9,3 13,4 74,6 49,9 32,9 759 Claude-3.5-Sonnet-1022 16,0 26,7 78,3 65,0 38,9 717 OpenAI-o1-mini 63,6 80,0 90,0 60,0 53,8 1.820 QwQ-32B-Preview 50,0 60,0 90,6 54,5 41,9 1.316 DeepSeek-R1-Distill-Qwen-1,5B 28,9 52,7 83,9 33,8 16,9 954 DeepSeek-R1-Distill-Qwen-7B 55,5 83,3 92,8 49,1 37,6 1.189 DeepSeek-R1-Distill-Qwen-14B 69,7 80,0 93,9 59,1 53,1 1.481 DeepSeek-R1-Distill-Qwen-32B 72,6 83,3 94,3 62,1 57,2 1.691 DeepSeek-R1-Distill-Llama-8B 50,4 80,0 89,1 49,0 39,6 1.205 DeepSeek-R1-Distill-Llama-70B 70,0 86,7 94,5 65,2 57,5 1.633 Die Tabelle vergleicht Modellleistungen über Benchmarks für mathematische und allgemeine Problemlösungskompetenzen. cons@64 misst, wie oft das Modell bei 64 generierten Antworten zu einer konsistent richtigen Lösung kommt – also ob es stabil korrekte Antworten liefert, selbst wenn es mehrfach auf dieselbe Fra- ge antwortet. Rating bezieht sich auf eine subjektive Bewertung der Modellantworten durch menschliche Experten. Quelle: DeepSeek-Studie 80 N o . 1/2025 | institutional-money.com THEORIE & PRAXIS | KI-Zeitenwende

RkJQdWJsaXNoZXIy ODI5NTI=