// HEISE ONLINE — INTELLIGENZA ARTIFICIALE
HPE: AI-Factory als Turnkey-System
HPE baut seine Private Cloud AI zu einem vorintegrierten Komplettsystem für produktive KI aus.
HPE hat auf der HPE Discover in Las Vegas seine KI-Plattform deutlich erweitert. Lag die bisherige GPU-Obergrenze bei 64, sind nun bis zu 256 GPUs möglich. Kunden können mit kleinen Konfigurationen starten und die Leistung später über zusätzliche Racks ausbauen. Außer den ProLiant-Servern mit Nvidia-Beschleunigern gehören Storage, Data Fabric sowie Software für Modelle, KI-Anwendungen und Agenten zu dem System. Morpheus übernimmt dabei die Steuerung, OpsRamp die Überwachung.
Die Installation und Integration sind Bestandteil des Angebots. HPE liefert die gesamte Umgebung zu einem festen Gesamtpreis. Ziel ist es, Unternehmen davon zu befreien, sich eine eigene KI-Fabrik aus einzelnen Hardware-, Software- und weiteren Bausteinen selbst zusammensetzen zu müssen.
HPEs Private Cloud AI integriert Nvidia AI Enterprise sowie kuratierte Modelle und Entwicklungswerkzeuge. Hinzu kommen das Nvidia Agent Toolkit, Nemotron-Modelle, NemoClaw und OpenShell. Agenten lassen sich darüber registrieren, bereitstellen und mit Zugriffsregeln versehen. Auf der Compute-Seite wird das Angebot um Systeme mit Nvidia RTX Pro 6000 Blackwell Server Edition ergänzt.
Außerdem hat HPE den ProLiant DL394 Gen12 mit Nvidias Arm-basierter Vera-CPU angekündigt. Diese CPU übernimmt die speicher- und steuerungsintensiven Teile von agentischen Anwendungen und arbeitet eng mit den Nvidia-GPUs zusammen. Damit konzentriert sich HPE bei seiner Private Cloud AI auf Nvidias Hard- und Softwarestack. Diese enge Abstimmung reduziert den Integrationsaufwand, bedeutet aber weniger Flexibilität bei der Auswahl von Beschleunigern und Laufzeitumgebungen.
Eine zentrale Rolle in der neuen KI-Plattform übernimmt Alletra Storage MP X10000. Die Plattform stellt Datei- und Objektspeicher auf einer gemeinsamen Architektur bereit und wird direkt in Private Cloud AI eingebunden. HPE nutzt das System außerdem als ausgelagerten Speicher für den Performance-relevanten KV-Cache. Sprachmodelle speichern im KV-Cache Informationen über bereits verarbeitete Texte, Zusammenhänge und Zwischenergebnisse. Bei weiteren Anfragen greifen sie auf diesen Kontext zurück, statt ihn jedes Mal neu zu berechnen.
Das ist besonders bei längeren Prompts, vielen Dokumenten und mehreren parallel arbeitenden Agenten wichtig. Je länger der Kontext und je mehr Anfragen gleichzeitig laufen, desto stärker wächst der Speicherbedarf. Werden ältere Kontextinformationen verdrängt, muss das Modell sie bei späteren Anfragen erneut berechnen. Das erhöht Latenz, Energieverbrauch und Kosten. In einer agentischen Umgebung verschärft sich das Problem, weil Agenten nicht nur einmal antworten, sondern wiederholt prüfen, planen, Daten abrufen und Aktionen vorbereiten.
HPE lagert deshalb Teile des KV-Caches per Remote Direct Memory Access auf den X10000 aus. Dabei werden die Daten direkt zwischen Storage und Arbeitsspeicher übertragen, ohne den üblichen Umweg über mehrere Verarbeitungsschichten des Betriebssystems zu nehmen. Damit übernimmt die Storage-Einheit einen Teil des GPU-Speichers und wird Teil der Inferenz. Laut HPE konnte in einer eigenen Testkonfiguration mit Nvidia-H200-GPUs und dem Modell Nemotron 70B die Zeit bis zum ersten ausgegebenen Token um den Faktor 20 verkürzt werden. Dabei soll der Durchsatz um den Faktor 17 gestiegen sein.
Das neue Data Fabric 8.2 erfasst und katalogisiert verteilte Datenbestände. Ein globaler Katalog zeigt, welche Informationen vorhanden sind und wo sie sich befinden. Metadaten, Identitäten und Zugriffsrichtlinien legen fest, welche Anwendungen oder Agenten auf bestimmte Bestände zugreifen dürfen. Das Data Fabric wird auch als vorkonfigurierte Appliance auf ProLiant-Servern angeboten. Innerhalb des Gesamtstacks übernimmt der X10000 den schnellen Zugriff auf die Daten, während Data Fabric die Bestände auffindbar und kontrolliert nutzbar macht.
Technische Datenorganisation allein macht Daten all