// HEISE ONLINE — INTELLIGENZA ARTIFICIALE

OpenAI soll Inferenzkosten um mehr als die Hälfte gesenkt haben

Published: 07/01/2026, 12:24 PM

Laut einem Medienbericht haben OpenAI-Ingenieure Optimierungen gefunden, die die Kosten für den Betrieb bestehender KI-Modelle um mehr als 50 Prozent senken. OpenAI-Ingenieure haben offenbar Optimierungen entwickelt, die die Inferenzkosten – also die Kosten für den Betrieb bereits trainierter Modelle – um mehr als die Hälfte senken. Angeblich konnte OpenAI die Zahl der benötigten Nvidia-GPUs für nicht eingeloggte ChatGPT-Nutzer zeitweise auf „nur ein paar hundert“ reduzieren – eine auffällig niedrige Zahl. Das berichtet The Information unter Berufung auf interne Quellen. Welche konkreten Techniken OpenAI einsetzt, ist allerdings unklar. Mögliche Bausteine der Kostenreduktion könnten Quantisierung (Reduktion der Zahlenpräzision von Modellgewichten) sein, Key-Value-Caching (Wiederverwendung früherer Berechnungen), Batching (parallele Verarbeitung mehrerer Anfragen) sowie Routing einfacher Aufgaben an weniger rechenintensive Modelle. Solche Verfahren sind in der Branche etabliert und können in Kombination erhebliche Einsparungen erzielen. Aggressive Inferenzoptimierungen bergen allerdings Risiken. Quantisierung kann die Genauigkeit der Ergebnisse verringern, fehlerhaftes Modellrouting kann Anfragen fälschlich als „einfach“ einstufen und an zu kleine Modelle delegieren. Kontext-Komprimierung wiederum könnte sicherheitsrelevante Signale in langen Chatverläufen beschneiden. Die Optimierungen dürften für OpenAI auch finanziell relevant sein. Laut The Information lag die Bruttomarge des API-Geschäfts Ende des ersten Quartals bei 39 Prozent, nach 33 Prozent im Vorjahr. Das erklärte Ziel: 52 Prozent bis Jahresende. Dafür müsste das Unternehmen im Rest des Jahres durchschnittlich rund 56 Prozent erreichen. Oder die Einsparungen durch die Optimierungen könnten an Kunden weitergegeben werden – etwa durch günstigere API-Preise oder höhere Kontingente für ChatGPT-Abonnenten. Auch die Konkurrenz arbeitet an vergleichbaren Hebeln. Anthropic bezeichnet seine Effizienzmaßnahmen als „Compute Multipliers“ und hält Details laut CEO Dario Amodei bewusst vertraulich, um Nachahmung zu erschweren. Die Optimierungen fallen in eine Zeit akuter Kapazitätsengpässe: Wie zuletzt der Fall zeigt, dass Google Metas Gemini-Zugang wegen Kapazitätsengpässen begrenzt hat, stoßen selbst die größten Tech-Konzerne an die Grenzen verfügbarer Rechenleistung. Trotz Milliarden-Investitionen in neue Rechenzentren dauert deren Inbetriebnahme oft Monate oder Jahre – Software-Effizienz wird damit zu einem zentralen Wettbewerbsfaktor. Für europäische Unternehmen, die KI-APIs einsetzen, bedeuten sinkende Inferenzkosten, dass der Einsatz leistungsfähigerer Modelle wirtschaftlicher wird. Keine News verpassen! Jeden Morgen der frische Nachrichtenüberblick von heise online Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.