Während Large Language Models (LLMs) durch ihre schiere Grösse und breiten Einsatzmöglichkeiten beeindrucken, stossen sie in produktionsnahen Szenarien oft an Grenzen – etwa bei Echtzeitanforderungen. Kleine Sprachmodelle setzen genau hier an: Sie bringen KI dort ins Spiel, wo es bisher schlicht nicht praktikabel war. NTT Data, ein weltweit führender Anbieter von KI, digitalen Business- und Technologie-Services, erklärt, was IT-Verantwortliche in der Industrie über Small Language Models (SLMs) wissen sollten.
Oliver Köth, Chief Technology Officer bei NTT Data DACH: «Small Language Models eröffnen der Industrie neue Wege, KI gezielt, sicher und ressourcenschonend einzusetzen. Gerade in der Fertigung sind es in der Regel nicht die grössten Modelle, sondern die am besten trainierten, die den Unterschied machen. Wir sehen bereits heute, wie Unternehmen ihre Produktionsdaten mit speziell trainierten Modellen lokal auswerten, wie Wartungsteams sich über sprachgesteuerte Assistenzsysteme unterstützen lassen oder wie technische Dokumente automatisch klassifiziert werden – direkt am Ort des Geschehens. Das Entscheidende ist: Mit SLMs lässt sich KI in den industriellen Alltag integrieren, ohne komplexe Cloud-Setups, ohne Datenrisiken, aber mit hoher Effizienz.»
(Bild: NTT Data DACH)
Aus Sicht der Industrie muss sich KI wirtschaftlich rechnen, regulatorisch absichern lassen und in vorhandene IT- und OT-Strukturen einfügen. Dabei stellt sich zunehmend heraus, dass Standardlösungen auf Basis öffentlich trainierter LLMs nur begrenzten Mehrwert bringen. Solche Modelle sind nicht auf die spezifischen Anforderungen von Fertigungsbetrieben zugeschnitten – etwa die Auswertung von Maschinendaten, die Optimierung von Produktionsparametern oder das Assistieren bei Wartung und Instandhaltung. Zudem sind die Ergebnisse austauschbar und bieten wenig Potenzial zur Differenzierung. Sind SLMs deshalb die bessere Wahl? NTT Data beantwortet die wichtigsten Fragen.
Worin unterscheiden sich SLMs von grossen KI-Modellen?
SLMs sind deutlich kompakter aufgebaut als LLMs – sie umfassen typischerweise zwischen 100 Millionen und zehn Milliarden Parameter. Zum Vergleich: GPT-4 verfügt je nach Architektur über mehrere hundert Milliarden Parameter. Als Parameter bezeichnet man interne Variablen wie Gewichtungen und Verzerrungen, die ein Modell während des Trainings erlernt. Der reduzierte Umfang eines SLMs hat konkrete Auswirkungen auf die Laufzeitumgebung, die Inferenzgeschwindigkeit und den Speicherbedarf: Kleine Sprachmodelle benötigen weniger Rechenleistung, verbrauchen weniger Energie und lassen sich schneller trainieren. Diese Effizienz geht jedoch nicht zu Lasten der Leistung. So erreicht das Phi-2-Modell von Microsoft mit gerade einmal 2,7 Milliarden Parametern beim Commonsense-Reasoning Ergebnisse, die mit zehnmal so grossen Modellen vergleichbar sind. Das Phi-4-Mini-Reasoning-Modell mit nur 3,8 Milliarden Parametern erzielt bei mathematischen Problemlösungen bessere Resultate als viele der grossen Modelle.
Wie profitieren Industrieunternehmen vom Einsatz kompakter Modelle?
In der industriellen Praxis punkten SLMs vor allem durch ihre schnelle Anpassbarkeit an konkrete Aufgaben. Anders als bei grossen KI-Modellen, deren Feintuning Wochen dauern kann und eine teure Recheninfrastruktur erfordert, lassen sich SLMs in wenigen GPU-Stunden auf spezifische Anforderungen trainieren. Diese hohe Flexibilität erlaubt es, KI gezielt auf den jeweiligen Produktionskontext zuzuschneiden, beispielsweise für das Erkennen von Musterabweichungen, die Interpretation von Wartungstexten oder das Erfassen domänenspezifischer Fachsprache, wie sie im Shopfloor üblich ist. Zusätzliche Effizienzgewinne entstehen durch parametereffiziente Anpassungstechniken wie die Low-Rank Adaptation (LoRA). Dabei wird das zugrunde liegende Modell nicht komplett verändert, sondern modular erweitert. So lassen sich neue Aufgabenbereiche integrieren oder bestehende Funktionen nachschärfen, ohne das gesamte Modell neu trainieren zu müssen. Neben der technischen Flexibilität wirkt sich der reduzierte Ressourcenbedarf auch direkt auf die Kosten aus. Durch den geringeren GPU-Einsatz, den niedrigeren Energieverbrauch und den Wegfall teurer Cloud-Kapazitäten werden die laufenden Betriebs- und Infrastrukturkosten spürbar gesenkt. Hinzu kommt, dass sich SLMs aufgrund ihres geringen Ressourcenbedarfs auch dort betreiben lassen, wo LLMs scheitern: lokal in Werken, auf Edge Devices oder in abgeschotteten OT-Umgebungen. Das bedeutet auch, dass kleine Sprachmodelle schnelle Antwortzeiten ohne Umweg über die Cloud ermöglichen. Dadurch werden Abhängigkeiten reduziert und Sicherheitsrisiken minimiert.
Welche technischen Voraussetzungen müssen erfüllt sein?
Der Ressourcenbedarf eines SLM ist so gering, dass bereits handelsübliche Server oder Industrie-PCs ausreichen können. Viele SLMs basieren auf Open-Source-Technologien und unterstützen gängige Frameworks, was wiederum die Flexibilität erhöht und die Anbindung an bestehende Systeme wie MES, ERP oder SCADA erleichtert. Auch die Anpassung an domänenspezifische Fachbegriffe oder individuelle Workflows ist mit überschaubarem Aufwand möglich. Moderne Inferenz-Frameworks wie NVIDIA Dynamo oder vergleichbare Runtimes spielen hier eine zentrale Rolle. Sie sorgen mit intelligenten Scheduling-Algorithmen dafür, dass mehrere kompakte Modelle gleichzeitig und effizient auf der vorhandenen Hardware ausgeführt werden können. Auch das Ausrollen und Aktualisieren von Modellen wird durch standardisierte Schnittstellen und Automatisierung vereinfacht.
Wo liegen die Grenzen kleiner Modelle und wie lassen sie sich umgehen?
SLMs bieten hohe Effizienz und Kontrolle – allerdings auf Kosten der Generalisierung und semantischen Tiefe. Komplexe Inferenzketten, mehrdeutige Anfragen oder kreative Textgenerierung können ihre Kapazitäten überschreiten. Auch bei mehrsprachiger Verarbeitung oder logischem Schlussfolgern sind grössere Modelle meist überlegen. Viele Unternehmen begegnen diesen Grenzen mit hybriden Architekturen, in denen unterschiedliche Modellgrössen nicht gegeneinander, sondern arbeitsteilig eingesetzt werden. Ein Ansatz ist das «SLM-first»-Prinzip: Kleinere Modelle übernehmen zunächst die Bearbeitung aller Aufgaben, die sich klar strukturieren, spezialisieren oder automatisieren lassen – etwa das Extrahieren technischer Informationen, die Beantwortung wiederkehrender Anfragen oder die Umwandlung von Formaten. Nur wenn diese SLMs an inhaltliche oder logische Grenzen stossen, wird ein LLM als «Fallback-System» aktiviert – beispielsweise für mehrdeutige Fragestellungen, komplexe Planungsszenarien oder kontextreiche Dialoge. Durch ein intelligentes Routing werden Anfragen dabei dynamisch an das am besten geeignete Modell weitergeleitet. Dieses gestufte Vorgehen bringt mehrere Vorteile mit sich: Rechenressourcen werden geschont, Antworten bleiben nachvollziehbar und kontrollierbar und die Systeme lassen sich zielgerichteter optimieren – sei es durch Finetuning der SLMs oder durch gezielte Prompt-Strategien beim LLM.
Stand vom 30.10.2020
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group AG, Seestrasse 95, CH-8800 Thalwil, einschließlich aller mit ihr verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de/de/smm abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Wie werden kleine Modelle trainiert und woher bekommen sie ihre Daten?
SLMs sind keine völlig eigenständige Modellklasse, sondern entstehen in der Regel durch die gezielte Reduktion grosser Sprachmodelle. Die Basis bleibt dabei stets ein künstliches neuronales Netzwerk mit Transformer-Architektur, das für Aufgaben der natürlichen Sprachverarbeitung trainiert wurde. Die Umwandlung eines LLM in ein schlankeres Modell erfolgt durch eine Kombination technischer Verfahren, die das ursprüngliche Netzwerk komprimieren, vereinfachen oder durch gezieltes Neudesign ersetzen. Ein gängiger Ansatz ist die Wissensdestillation (Knowledge Distillation): Ein grosses Modell dient als Referenz, während ein kleineres Modell darauf trainiert wird, dessen Vorhersagen nachzuahmen. Statt auf Rohdaten zu lernen, orientiert sich das SLM also direkt am Verhalten des grösseren Modells, was Trainingseffizienz und Ergebnisqualität verbessert. Neben den klassischen Verfahren gewinnen auch neue Architekturansätze wie Attention-Mechanismen an Bedeutung. Wie immer bei KI sind allerdings eine Feinabstimmung mit massgeschneiderten Datensätzen und kontinuierliche Verbesserungen wichtig. Hier kommt das Prinzip des KI-Data-Flywheel ins Spiel: Dieses Schwungrad schafft eine Schleife, dank der die Modelle durch die Integration von institutionellem Wissen und Nutzer-Feedback kontinuierlich verbessert werden. Während die KI Ergebnisse generiert, sammelt sie Feedback und neue Daten, die dann zur Verfeinerung und Verbesserung des Modells verwendet werden. Mithilfe von Techniken wie Domain Adaptive Pretraining (DAPT) und Supervised Fine-Tuning (SFT) lassen sich dem SLM dann domänenspezifisches Wissen und aufgabenspezifische Fähigkeiten hinzufügen.
Welche Rolle spielen SLMs in Bezug auf KI-Agenten?
Agenten sind darauf ausgelegt, unterschiedliche Aufgaben zu übernehmen und eigenständig Entscheidungen zu treffen. Dabei profitieren sie besonders von einem hybriden Architekturansatz: LLMs übernehmen übergeordnete Funktionen wie Kontextverständnis oder strategische Planung, während spezialisierte SLMs operative Aufgaben abarbeiten. Dieses Vorgehen erinnert stark an das Microservices-Paradigma in der Softwareentwicklung: Statt einen monolithischen Codeblock zu pflegen, wird die Anwendung in unabhängige, klar abgegrenzte Dienste zerlegt. Jeder Service – oder in diesem Fall jedes Modell – ist auf eine spezifische Funktion optimiert und kann unabhängig angepasst, ausgetauscht oder erweitert werden. So entsteht eine KI-Architektur, die anpassbar, skalierbar und fehlertolerant ist. Ein zusätzlicher Vorteil dieser Struktur: Agenten erzeugen bei ihrer Arbeit fortlaufend aufgabenspezifische Nutzungsdaten, die sich ideal zur kontinuierlichen Weiterentwicklung der beteiligten SLMs eignen. Da diese Daten reale Arbeitsabläufe, domänenspezifische Begriffe und unternehmensspezifische Entscheidungslogiken widerspiegeln, sind sie oft wertvoller als generische Trainingsdaten. Durch gezieltes Finetuning entstehen mit der Zeit echte Expertenmodelle, die nicht nur Aufgaben erledigen, sondern sie mit zunehmender Präzision und Fachkenntnis bewältigen.