Institutional Money, Ausgabe 1 | 2025
Berechnung mit einer verbesserten Strategie fort. Dieser E ekt unterstreicht die Fähigkeit von RL, reasoningbasierte Problemlösungen ohne explizite Supervision zu forcieren. Destillation als Schlüssel Ein weiteres zentrales Thema ist die Skalierung von leis- tungsfähigem Reasoning auf kleinere Modelle. Die Destil- lation stellt hierbei eine entscheidende Technik dar, um leis- tungsstarke Modelle ressourcenschonend zu replizieren. „Wir zeigen, dass die Reasoning-Muster größerer Modelle in klei- nere Modelle übertragen werden können, wodurch eine bessere Leistung erzielt wird als durch direktes RL-Training auf kleinen Modellen“, heißt es in dem Paper, das übrigens von keinem Autor, sondern nur vom Unternehmen selbst gezeichnet ist. ImRahmen der Destillation werden die Fähigkeiten eines großen Modells in eine kompaktere Architektur übertragen, indem gezielt mit den generierten Daten des leistungsfähi- geren Modells trainiert wird. Dieser Ansatz ermöglicht es, die Reasoning-Fähigkeiten beizubehalten, ohne dass das klei- nere Modell selbst ein vollständiges RL-Training durchlaufen muss. Gezielte Destillation verbessert also nicht nur die Leistung kleinerer Modelle erheblich, sondern kreiert auch einen wirtschaftlichen Vorteil. Besonders bei ressourcen- beschränkten Anwendungen erö net dies neue Perspekti- ven für den Einsatz leistungsfähiger LLMs: Während Mo- delle wie DeepSeek-R1-Distill-Qwen-7B mit 55,5 Prozent auf AIME 2024 solide Resultate erzielen, erreicht DeepSeek-R1- Distill-Qwen-32B mit 72,6 Prozent auf AIME 2024 und 94,3 Prozent auf MATH-500 Werte, die fast an die Leistung des ursprünglichen Modells heranreichen. Besonders bemer- kenswert ist, dass diese Destillationstechniken Modelle mit deutlich weniger Parametern konkurrenzfähig machen, ohne dass eine erneute RL-Phase notwendig ist (siehe Tabelle „Destillation boostet die Performance“). „Trotz dieser Fortschritte bleiben Herausforderungen bestehen“, heißt es in der Arbeit. Die Strukturierung von Reward-Systemen für RL ist komplex, und die Abwägung zwischen reasoningoptimierter Modellleistung und generel- ler Sprachverständlichkeit bleibt ein o enes Forschungsfeld. DeepSeek-R1 demonstriert jedoch eindrucksvoll, dass Re- inforcement Learning als zentrales Trainingsparadigma für reasoningintensive Anwendungen nicht nur eine Alternati- ve, sondern eine potenzielle neue Norm darstellt. „Die Kom- bination aus purem RL und gezielter Destillation zeigt auf, wie zukünftige LLMs reasoningoptimierte Fähigkeiten auf eine breite Skalierungsebene übertragen können“, heißt es in der Studie. Wilde Zensur und Halbwahrheiten Also alles eitel Wonne? Möglicherweise von einem techni- schen Standpunkt aus. Das Problem: DeepSeek o enbart ethische Dilemmata, die selbstverständlich auch beim Mit- bewerb bestehen, die aufgrund des politisch-geogra schen Backgrounds aber noch augenscheinlicher werden. So haben wir in einem Testlauf nach der Lage der Uiguren in der Volksrepublik China gefragt. Zunächst kam eine brauch- bare Antwort mit den politischen Problemen und Heraus- forderungen und eine Aufzählung der unterschiedlichen Sichtweisen. Ein paar Sekunden später löschte das Modell die Antwort jedoch wieder und gab stattdessen einen Hin- weis auf Englisch, dass die Beantwortung der Frage „beyond the scope“ des Modells wäre. Auf Nachfrage erklärte das Modell – wieder auf Deutsch –, dass es Themen dieser Art aus Gründen der Fairness und Neutralität nicht beantworte. Ein Frage nach Menschenrechtsverletzungen der USA wur- de in weiterer Folge aber ausführlich – und korrekt – beant- wortet. Die Behauptung, neutral zu agieren, war also nicht wahr. Stellt sich die Frage: Darf eine KI so etwas? Dieser Frage widmet sich der Artikel „Do large language models have a legal duty to tell the truth?“ von Sandra Wachter, Brent Mittelstadt und Chris Russell, die alle in Oxford forschen. Sie beleuchten, wie sich die zunehmend plausible, aber nicht immer akkurate Sprachproduktion dieser KI-Systeme langfristig auf Wissenschaft, Bildung und gesellschaftliche Wahrheiten auswirken könnte. Die zentrale These: LLMs sind nicht darauf ausgelegt, die Wahrheit zu liefern, sondern vielmehr Überzeugungskraft und Nützlichkeit für den Nutzer. Dies führe dazu, dass sie nicht nur gelegentlich „Halluzinationen“ produzieren, sondern systematisch zu Je länger das Training, desto komplexer die Antwort Das Training selbst läuft größtenteils automatisiert ab. Das Modell produziert im Lauf des Trainings längere Antworten, was darauf hindeutet, dass es mehr Denkzeit aufwendet – die längere Antwort spiegle laut DeepSeek eine tiefere und komplexere Problemlösungsstrategie wider. Quelle: Studie 0 2.000 4.000 6.000 8.000 0 2.000 4.000 6.000 8.000 10.000 12.000 Durchschnittliche Länge der Antwort Trainingsschritte 78 N o . 1/2025 | institutional-money.com THEORIE & PRAXIS | KI-Zeitenwende » Wir zeigen, dass die Reasoning-Muster größerer Modelle in kleinere Modelle übertragen werden können, wodurch eine bessere Leistung erzielt wird als durch direktes RL-Training auf kleinen Modellen. « Autorenkollektiv, DeepSeek-AI
Made with FlippingBook
RkJQdWJsaXNoZXIy ODI5NTI=