Échelles de racks d’entraînement IA
- Technologie
- GPGPU-HPC
- Partner
- One Stop Systems
GPultima CI & OSS Ampere8 est une solution d’entraînement IA à l’échelle du rack conçue pour les organisations qui ont besoin d’une infrastructure haute performance pour le développement de modèles avancés. Elle associe des nœuds serveur robustes à des châssis d’extension GPU afin de prendre en charge l’entraînement deep learning à grande échelle dans des environnements datacenter. Son architecture composable permet d’allouer dynamiquement les GPU, le stockage et les ressources réseau entre différentes charges de travail afin d’améliorer l’utilisation des ressources et la flexibilité.
Le système est ainsi particulièrement adapté aux systèmes autonomes, à l’analyse pour la défense et la surveillance, à la recherche scientifique et à d’autres applications à forte intensité de calcul. En centralisant l’entraînement IA, la plateforme vient compléter les déploiements durcis en périphérie et les systèmes mobiles, sur lesquels les modèles entraînés sont ensuite déployés. Il en résulte un flux de travail rationalisé, de la collecte des données et du développement des modèles jusqu’à la validation et au déploiement sur le terrain.

Les organisations qui souhaitent entraîner des modèles d’IA avancés peuvent tirer parti de GPultima CI & OSS Ampere8, une solution combinée à l’échelle du rack spécialement conçue pour les charges de travail intensives d’entraînement IA. La plateforme associe une infrastructure serveur évolutive à une extension GPU haute performance, permettant de centraliser l’entraînement deep learning sur des jeux de données massifs.
Sa conception composable permet d’allouer dynamiquement les GPU, le stockage NVMe et les ressources réseau entre les applications, afin d’aider les équipes à adapter l’infrastructure à l’évolution des besoins des projets. La solution convient ainsi aux chaînes de développement IA qui couvrent l’entraînement en datacenter et le déploiement sur des systèmes durcis en périphérie ou mobiles.
Caractéristiques de la gamme
Un aperçu général de ce que cette gamme offre
- Accélération GPU haute densité : prend en charge jusqu’à 48 accélérateurs GPU NVIDIA par rack, avec 8 GPU par châssis OSS Ampere8 pour l’entraînement parallèle à grande échelle.
- Architecture composable : partage dynamiquement les GPU, le stockage NVMe et les ressources NIC entre les serveurs afin d’améliorer l’utilisation des ressources et la flexibilité des charges de travail.
- Tissu d’extension PCIe Gen4 : utilise une Interconnect PCIe Gen4 à large bande passante et faible latence, avec une bande passante agrégée pouvant atteindre 512 Gbit/s, pour un transfert rapide des données.
- Solution intégrée à l’échelle du rack : combine serveurs, châssis d’extension GPU, réseau et stockage dans un modèle de déploiement préconfiguré.
- Flux de travail IA de l’edge au core : sert de hub central d’entraînement pour des modèles ensuite déployés sur des plateformes durcies en périphérie et mobiles.
- Prévu pour l’alimentation et le refroidissement : conçu pour les environnements de calcul denses, avec prise en charge d’une consommation électrique élevée au niveau du rack et d’un fonctionnement continu.
Téléchargements
pour Échelles de racks d’entraînement IA
Qu’est-ce qu’il y a dans cette gamme ?
Toutes les variantes de la gamme et une comparaison de ce qu’elles offrent
| Specification | GPultima CI (Rack-Scale Cluster) | OSS Ampere8 (GPU Expansion Chassis) |
|---|---|---|
Form Factor | 19-inch rack (42U), single or multi-rack configuration | 4U chassis, rack-mountable |
Compute Nodes (CPU) | Up to 32 × dual Intel Xeon Scalable nodes per rack | Uses external host server via dual x16 PCIe links, no CPU on board |
GPU Capacity | Up to 48 NVIDIA data center GPUs per rack, scalable to 128+ with multi-rack | Up to 8 NVIDIA GPUs in one chassis |
Storage | Up to 96 NVMe SSD drives per rack | No internal drives; storage provided by host server or external system |
Networking | Up to 32 × 100 Gb InfiniBand/Ethernet NICs per rack | Supports up to 2 high-bandwidth NIC cards for optional data I/O |
Interconnect Fabric | 48-port PCIe Gen4 switch fabric for composable resource sharing | Dual PCIe 4.0 x16 host interfaces with 512 Gbps total bandwidth |
GPU-to-GPU Links | NVLink/NVSwitch supported depending on GPU integration | NVIDIA NVLink 3rd Gen between GPUs with up to 600 GB/s communication |
Power Supply | Rack power distribution supports up to ~52 kW | 4000 W redundant power supply built in |
Management Software | Composable infrastructure management with API and GUI control | Managed as part of the GPultima cluster or via the host system |
FAQs
pour Échelles de racks d’entraînement IA
Un système d’entraînement IA à l’échelle du rack est une plateforme de calcul haute performance qui regroupe, au sein d’un rack complet, serveurs, GPU, stockage et réseau pour fonctionner comme un cluster d’entraînement unifié. Il est utilisé lorsque les charges de travail IA exigent davantage de puissance de calcul, de mémoire et de débit qu’un serveur unique ne peut fournir. Cette architecture permet de réduire les temps d’entraînement, de prendre en charge des jeux de données plus volumineux et d’accroître les capacités d’expérimentation pour les projets de deep learning les plus exigeants.
GPultima CI utilise une architecture composable dans laquelle les GPU, le stockage NVMe et les ressources réseau sont mutualisés au lieu d’être rattachés de façon permanente à un seul serveur. Grâce à un tissu PCIe haut débit et à un logiciel de gestion, les ressources peuvent être attribuées dynamiquement aux serveurs qui en ont besoin pour une charge de travail donnée. Cela améliore l’utilisation des ressources, simplifie la reconfiguration et permet d’adapter le matériel à l’évolution des besoins d’entraînement sans recâblage physique.
La plateforme est conçue pour des composants datacenter haute performance. GPultima CI peut prendre en charge jusqu’à 48 GPU NVIDIA dans un seul rack ainsi que des nœuds serveur basés sur des processeurs Intel Xeon Scalable doubles. OSS Ampere8 est conçu pour les GPU PCIe NVIDIA de génération Ampere, tels que l’A100, et se connecte à des serveurs hôtes compatibles disposant de la capacité PCIe Gen4.
OSS Ampere8 se connecte à un serveur hôte via des liaisons PCIe Gen4 doubles x16 à l’aide de l’adaptateur d’interface hôte approprié. Une fois connecté, le serveur hôte accède aux GPU du châssis comme s’ils étaient installés localement. Cela fournit une bande passante agrégée très élevée et permet d’éviter les goulots d’étranglement d’E/S lors des charges de travail IA intensives en GPU.
Le système fournit un environnement d’entraînement centralisé pour les modèles d’IA qui fonctionneront ensuite sur des plateformes durcies en périphérie ou mobiles. Les données collectées sur le terrain peuvent être utilisées pour entraîner ou affiner les modèles dans le datacenter, où des ressources de calcul bien plus importantes sont disponibles. Les modèles mis à jour peuvent ensuite être redéployés vers l’edge, créant ainsi un flux de travail concret pour l’amélioration continue de l’IA.
Oui. L’architecture est modulaire et pensée pour évoluer. Les organisations peuvent commencer avec une configuration plus réduite, puis ajouter par la suite davantage de châssis d’extension GPU, davantage de nœuds serveur, du stockage supplémentaire ou même plusieurs racks interconnectés. Des mises à niveau des GPU et du stockage sont également possibles, à condition que les exigences en matière d’alimentation, de refroidissement et de compatibilité soient respectées.
Ces systèmes utilisent généralement des logiciels de gestion de cluster et d’infrastructure composable pour allouer les ressources matérielles et superviser l’environnement. Côté IA, ils prennent en charge les systèmes d’exploitation standard ainsi que des frameworks courants tels que PyTorch et TensorFlow, avec NVIDIA CUDA et les piles de pilotes associées. Des outils d’entraînement distribué et des ordonnanceurs de tâches peuvent également être utilisés pour orchestrer les charges de travail sur plusieurs serveurs et GPU.
Un rack GPultima CI entièrement configuré nécessite une infrastructure conséquente, tant pour l’alimentation électrique que pour le refroidissement. Selon la configuration, la consommation électrique du rack peut être très élevée ; des PDU adaptés, des alimentations électriques appropriées et une planification rigoureuse des flux d’air sont donc essentiels. Ces systèmes sont généralement déployés dans des environnements datacenter ou dans des espaces spécialisés de calcul haute densité capables de supporter un fonctionnement continu sous forte charge.







