KI-Trainings-Rack-Skalierungen

Technologie
GPGPU-HPC
Partner
One Stop Systems

GPultima CI & OSS Ampere8 ist eine KI-Trainingslösung auf Rack-Ebene für Unternehmen, die eine leistungsstarke Infrastruktur für die Entwicklung anspruchsvoller Modelle benötigen. Sie kombiniert robuste Serverknoten mit GPU-Erweiterungsgehäusen, um groß angelegtes Deep-Learning-Training in Rechenzentrumsumgebungen zu unterstützen. Die Composable Architecture ermöglicht die dynamische Zuweisung von GPUs, Speicher- und Netzwerkressourcen über verschiedene Workloads hinweg und sorgt so für eine bessere Auslastung und mehr Flexibilität.

Dadurch eignet sich das System besonders für autonome Systeme, Verteidigungs- und Überwachungsanalytik, wissenschaftliche Forschung und andere rechenintensive Anwendungen. Durch die Zentralisierung des KI-Trainings ergänzt die Plattform robuste Edge- und mobile Bereitstellungen, auf denen die trainierten Modelle später eingesetzt werden. Das Ergebnis ist ein optimierter Workflow von der Datenerfassung und Modellentwicklung über die Validierung bis hin zum Feldeinsatz.

KI-Trainings-Rack-Skalierungen

Unternehmen, die fortschrittliche KI-Modelle trainieren möchten, profitieren von GPultima CI & OSS Ampere8 – einer kombinierten Lösung auf Rack-Ebene, die speziell für intensive KI-Trainings-Workloads entwickelt wurde. Die Plattform vereint eine skalierbare Server-Infrastruktur mit leistungsstarker GPU-Erweiterung und ermöglicht so ein zentrales Deep-Learning-Training auf sehr großen Datensätzen.

Das composable Design erlaubt die dynamische Zuweisung von GPU-, NVMe-Speicher- und Netzwerkressourcen über verschiedene Anwendungen hinweg und hilft Teams dabei, ihre Infrastruktur an wechselnde Projektanforderungen anzupassen. Damit eignet sich die Lösung für KI-Entwicklungspipelines, die vom Training im Rechenzentrum bis zur Bereitstellung auf robusten Edge- oder mobilen Systemen reichen.

Eigenschaften

  • GPU-Beschleunigung mit hoher Dichte: Unterstützt bis zu 48 NVIDIA GPU-Beschleuniger pro Rack, mit 8 GPUs pro OSS Ampere8-Gehäuse für groß angelegtes paralleles Training.
  • Composable Architecture: Teilt GPUs, NVMe-Speicher und NIC-Ressourcen dynamisch zwischen Servern, um die Auslastung und Flexibilität bei Workloads zu verbessern.
  • PCIe Gen4-Erweiterungsfabric: Nutzt ein PCIe Gen4 Interconnect mit hoher Bandbreite und niedriger Latenz und bietet bis zu 512 Gbit/s aggregierte Bandbreite für schnelle Datenübertragung.
  • Integrierte Lösung auf Rack-Ebene: Kombiniert Server, GPU-Erweiterungsgehäuse, Netzwerk und Speicher in einem vorkonfigurierten Bereitstellungsmodell.
  • Edge-to-Core-KI-Workflow: Dient als zentrale Trainingsplattform für Modelle, die später auf robusten Edge- und mobilen Plattformen eingesetzt werden.
  • Bereit für Strom­versorgung und Kühlung: Entwickelt für dichte Rechenumgebungen und ausgelegt auf hohe Rack-Leistungsaufnahme sowie Dauerbetrieb.

Downloads

für KI-Trainings-Rack-Skalierungen

pdf
GPultima CI Rack-Scale System – Datasheet
Download

Verfügbare Modellvariationen

Alle verfügbaren Varianten und ein Vergleich ihrer Spezifikationen

SpecificationGPultima CI (Rack-Scale Cluster)OSS Ampere8 (GPU Expansion Chassis)

Form Factor

19-inch rack (42U), single or multi-rack configuration

4U chassis, rack-mountable

Compute Nodes (CPU)

Up to 32 × dual Intel Xeon Scalable nodes per rack

Uses external host server via dual x16 PCIe links, no CPU on board

GPU Capacity

Up to 48 NVIDIA data center GPUs per rack, scalable to 128+ with multi-rack

Up to 8 NVIDIA GPUs in one chassis

Storage

Up to 96 NVMe SSD drives per rack

No internal drives; storage provided by host server or external system

Networking

Up to 32 × 100 Gb InfiniBand/Ethernet NICs per rack

Supports up to 2 high-bandwidth NIC cards for optional data I/O

Interconnect Fabric

48-port PCIe Gen4 switch fabric for composable resource sharing

Dual PCIe 4.0 x16 host interfaces with 512 Gbps total bandwidth

GPU-to-GPU Links

NVLink/NVSwitch supported depending on GPU integration

NVIDIA NVLink 3rd Gen between GPUs with up to 600 GB/s communication

Power Supply

Rack power distribution supports up to ~52 kW

4000 W redundant power supply built in

Management Software

Composable infrastructure management with API and GUI control

Managed as part of the GPultima cluster or via the host system

FAQs

für KI-Trainings-Rack-Skalierungen

Ein KI-Trainingssystem auf Rack-Ebene ist eine Hochleistungsrechnerplattform, die Server, GPUs, Speicher und Netzwerk über ein komplettes Rack hinweg zu einem einheitlichen Trainingscluster zusammenführt. Es kommt zum Einsatz, wenn KI-Workloads mehr Rechenleistung, Speicher und Datendurchsatz erfordern, als ein einzelner Server bereitstellen kann. Diese Architektur hilft, Trainingszeiten zu verkürzen, unterstützt größere Datensätze und verbessert die Möglichkeiten zum Experimentieren bei anspruchsvollen Deep-Learning-Projekten.

GPultima CI nutzt eine composable Architektur, bei der GPUs, NVMe-Speicher und Netzwerkressourcen in gemeinsamen Pools bereitgestellt werden, statt dauerhaft an einen einzelnen Server gebunden zu sein. Über ein Hoch­geschwindig­keits-PCIe-Fabric und Management-Software lassen sich Ressourcen dynamisch den Servern zuweisen, die sie für einen bestimmten Workload benötigen. Das verbessert die Auslastung, vereinfacht die Neukonfiguration und ermöglicht es, die Hardware ohne physisches Neuverkabeln an veränderte Trainingsanforderungen anzupassen.

Die Plattform ist für leistungsstarke Rechenzentrumskomponenten ausgelegt. GPultima CI unterstützt bis zu 48 NVIDIA GPUs in einem einzelnen Rack sowie Serverknoten auf Basis von zwei Intel Xeon Scalable Prozessoren. OSS Ampere8 ist für PCIe GPUs der NVIDIA-Ampere-Generation wie die A100 konzipiert und verbindet sich mit kompatiblen Host-Servern mit PCIe Gen4-Unterstützung.

OSS Ampere8 wird über zwei x16 PCIe Gen4-Verbindungen und den passenden Host-Interface-Adapter mit einem Host-Server verbunden. Nach der Verbindung greift der Host-Server auf die GPUs im Gehäuse zu, als wären sie lokal installiert. Das sorgt für eine sehr hohe aggregierte Bandbreite und hilft, I/O-Engpässe bei GPU-intensiven KI-Workloads zu vermeiden.

Das System stellt eine zentrale Trainingsumgebung für KI-Modelle bereit, die später auf robusten Edge- oder mobilen Plattformen ausgeführt werden. Im Feld erfasste Daten können genutzt werden, um Modelle im Rechenzentrum zu trainieren oder zu verfeinern, wo deutlich mehr Rechenressourcen verfügbar sind. Aktualisierte Modelle lassen sich anschließend wieder am Edge bereitstellen und schaffen so einen praxisgerechten Workflow für die kontinuierliche Verbesserung von KI.

Ja. Die Architektur ist modular und auf Wachstum ausgelegt. Unternehmen können mit einer kleineren Konfiguration starten und später weitere GPU-Erweiterungsgehäuse, zusätzliche Serverknoten, mehr Speicher oder sogar mehrere miteinander verbundene Racks hinzufügen. Auch Upgrades von GPUs und Speicher sind möglich, sofern die Anforderungen an Strom­versorgung, Kühlung und Kompatibilität erfüllt sind.

Diese Systeme nutzen in der Regel Software für Cluster-Management und composable Infrastruktur, um Hardware-Ressourcen zuzuweisen und die Umgebung zu überwachen. Auf der KI-Seite unterstützen sie Standardbetriebssysteme und gängige Frameworks wie PyTorch und TensorFlow sowie NVIDIA CUDA und Treiber-Stacks. Auch Werkzeuge für verteiltes Training und Job-Scheduler können eingesetzt werden, um Workloads über mehrere Server und GPUs hinweg zu orchestrieren.

Ein vollständig konfiguriertes GPultima CI-Rack erfordert umfassende Infrastrukturunterstützung sowohl für die Strom­versorgung als auch für die Kühlung. Je nach Konfiguration kann die Leistungsaufnahme des Racks sehr hoch sein, daher sind geeignete PDUs, Stromzuführungen und eine sorgfältige Planung der Luftführung unerlässlich. Diese Systeme werden in der Regel in Rechenzentrumsumgebungen oder spezialisierten High-Density-Computing-Bereichen eingesetzt, die einen Dauerbetrieb unter hoher Last unterstützen können.