// HEISE ONLINE — INTELLIGENZA ARTIFICIALE

heise+ | Effiziente KI: Wie neue Modelle die Token-Kosten und RAM-Preise senken könnten

Published: 06/26/2026, 08:30 AM

Dass KI Ressourcen verschwendet, ist kein Naturgesetz. Es liegt an den ineffizienten Mechanismen der großen Sprachmodelle. Alternativen kommen, auch aus Europa. Die experimentellen Chatbots von einst entwickeln sich zu mächtigen KI-Agenten, mit schier unermesslichem Ressourcenbedarf und -verbrauch: mehr Trainingsdaten, mehr Grafikkarten, mehr RAM, mehr Tokens. Die Rechnung zahlt der Kunde, denn abgerechnet wird mittlerweile nach Tokenverbrauch. Und auch der Rest der Welt leidet unter der Knappheit wichtiger Komponenten und steigenden Preisen – nebst drohenden Verteilungskämpfen um Wasser und Elektrizität. Doch dass generative KI so enorm viel Rechenleistung benötigt, ist kein Naturgesetz. Vielmehr liegt es am zentralen Baustein der Sprachmodellarchitektur: dem Aufmerksamkeits- beziehungsweise Attention-Mechanismus. Dieses äußerst rechenintensive Verfahren ist nicht nur hauptverantwortlich für den immensen Energiehunger von generativer KI, sondern bildet mittlerweile auch einen spürbaren Engpass, gegen den selbst die Nvidias dieser Welt mit all ihren Grafikkarten nur schwer ankommen. Der eingesetzte Attention-Mechanismus begrenzt die mögliche Kontextlänge – also die Menge an Inhalten, die ein Sprachmodell bei einer Aufgabe verarbeiten kann. Die Etablierten wie OpenAI & Co. ziehen sich mit Rechentricks aus der Affäre, während Start-ups und Forscher nach verbesserten oder alternativen Architekturen suchen – mit Erfolg: Die einst in Siri und Alexa verwendeten, aber für umfangreiche Texte ungeeigneten Long-Short-Term-Memory-Netze (LSTMs) feiern in einer modernisierten Extended-Version namens xLSTM ein Comeback. Auf dessen unter Leitung von KI-Pionier Sepp Hochreiter entwickelten, effizienten Gedächtnisfunktionen baut auch die Transformer-Variante Kimi Linear aus den Laboren des chinesischen Start-ups Moonshot AI auf. Beide Modellformen verringern den Rechenaufwand im Vergleich zum ursprünglichen Aufmerksamkeitsalgorithmus drastisch. Wir erklären, wie ihnen das gelingt – und ob die Tage des mit Milliarden an Investorengeldern gepushten Transformers deshalb gezählt sind. Wussten Sie, dass Ihr Rauchmelder Einbrecher verjagen kann? Dazu braucht Home Assistant nur Zugriff auf seine Sirene. Wir zeigen, wie es gelingt. ChatGPT, Perplexity und Googles „KI-Übersicht“ verändern die Suche radikal. GEO soll Websites helfen, auch in KI-Antworten sichtbar und relevant zu werden. Klimaanlagen sind oft laut oder zu weit vom Schlafzimmer entfernt. Wir untersuchen, welche Alternativen die Kühlung direkt ins Bett bringen. Elgatos Stream Deck + XL erleichtert die Mac-Bedienung mit zusätzlichen Tasten und Reglern, nimmt aber auch einiges an Platz weg. Das kann das Werkzeug. Microsoft kooperiert mit Nvidia bei KI-PCs, aber ohne Copilot. In Frankreich entstehen Gigawatt-Rechenzentren und in Magdeburg vielleicht doch eine Chipfabrik. Batteriespeicher ist günstig wie nie und auch manche PV-Bestandsanlage könnte ein wenig mehr davon gebrauchen. Anker verspricht ein Update in fünf Minuten.