Question 1

Qu’est-ce qu’un système d’entraînement IA à l’échelle du rack et pourquoi est-il nécessaire ?

Accepted Answer

Un système d’entraînement IA à l’échelle du rack est une plateforme de calcul haute performance qui regroupe, au sein d’un rack complet, serveurs, GPU, stockage et réseau pour fonctionner comme un cluster d’entraînement unifié. Il est utilisé lorsque les charges de travail IA exigent davantage de puissance de calcul, de mémoire et de débit qu’un serveur unique ne peut fournir. Cette architecture permet de réduire les temps d’entraînement, de prendre en charge des jeux de données plus volumineux et d’accroître les capacités d’expérimentation pour les projets de deep learning les plus exigeants.

Question 2

Comment fonctionne l’infrastructure composable GPultima CI ?

Accepted Answer

GPultima CI utilise une architecture composable dans laquelle les GPU, le stockage NVMe et les ressources réseau sont mutualisés au lieu d’être rattachés de façon permanente à un seul serveur. Grâce à un tissu PCIe haut débit et à un logiciel de gestion, les ressources peuvent être attribuées dynamiquement aux serveurs qui en ont besoin pour une charge de travail donnée. Cela améliore l’utilisation des ressources, simplifie la reconfiguration et permet d’adapter le matériel à l’évolution des besoins d’entraînement sans recâblage physique.

Question 3

Quels types de GPU et de CPU sont pris en charge ?

Accepted Answer

La plateforme est conçue pour des composants datacenter haute performance. GPultima CI peut prendre en charge jusqu’à 48 GPU NVIDIA dans un seul rack ainsi que des nœuds serveur basés sur des processeurs Intel Xeon Scalable doubles. OSS Ampere8 est conçu pour les GPU PCIe NVIDIA de génération Ampere, tels que l’A100, et se connecte à des serveurs hôtes compatibles disposant de la capacité PCIe Gen4.

Question 4

Comment OSS Ampere8 se connecte-t-il à un serveur hôte ?

Accepted Answer

OSS Ampere8 se connecte à un serveur hôte via des liaisons PCIe Gen4 doubles x16 à l’aide de l’adaptateur d’interface hôte approprié. Une fois connecté, le serveur hôte accède aux GPU du châssis comme s’ils étaient installés localement. Cela fournit une bande passante agrégée très élevée et permet d’éviter les goulots d’étranglement d’E/S lors des charges de travail IA intensives en GPU.

Question 5

Quels avantages cette solution offre-t-elle pour les déploiements d’IA en périphérie ?

Accepted Answer

Le système fournit un environnement d’entraînement centralisé pour les modèles d’IA qui fonctionneront ensuite sur des plateformes durcies en périphérie ou mobiles. Les données collectées sur le terrain peuvent être utilisées pour entraîner ou affiner les modèles dans le datacenter, où des ressources de calcul bien plus importantes sont disponibles. Les modèles mis à jour peuvent ensuite être redéployés vers l’edge, créant ainsi un flux de travail concret pour l’amélioration continue de l’IA.

Question 6

Le système peut-il être étendu ou mis à niveau au fil du temps ?

Accepted Answer

Oui. L’architecture est modulaire et pensée pour évoluer. Les organisations peuvent commencer avec une configuration plus réduite, puis ajouter par la suite davantage de châssis d’extension GPU, davantage de nœuds serveur, du stockage supplémentaire ou même plusieurs racks interconnectés. Des mises à niveau des GPU et du stockage sont également possibles, à condition que les exigences en matière d’alimentation, de refroidissement et de compatibilité soient respectées.

Question 7

Quel environnement logiciel est généralement utilisé pour gérer et exécuter les charges de travail ?

Accepted Answer

Ces systèmes utilisent généralement des logiciels de gestion de cluster et d’infrastructure composable pour allouer les ressources matérielles et superviser l’environnement. Côté IA, ils prennent en charge les systèmes d’exploitation standard ainsi que des frameworks courants tels que PyTorch et TensorFlow, avec NVIDIA CUDA et les piles de pilotes associées. Des outils d’entraînement distribué et des ordonnanceurs de tâches peuvent également être utilisés pour orchestrer les charges de travail sur plusieurs serveurs et GPU.

Question 8

Quels sont les points à prendre en compte pour l’alimentation et le refroidissement lors de l’installation ?

Accepted Answer

Un rack GPultima CI entièrement configuré nécessite une infrastructure conséquente, tant pour l’alimentation électrique que pour le refroidissement. Selon la configuration, la consommation électrique du rack peut être très élevée ; des PDU adaptés, des alimentations électriques appropriées et une planification rigoureuse des flux d’air sont donc essentiels. Ces systèmes sont généralement déployés dans des environnements datacenter ou dans des espaces spécialisés de calcul haute densité capables de supporter un fonctionnement continu sous forte charge.

Specification	GPultima CI (Rack-Scale Cluster)	OSS Ampere8 (GPU Expansion Chassis)
Form Factor	19-inch rack (42U), single or multi-rack configuration	4U chassis, rack-mountable
Compute Nodes (CPU)	Up to 32 × dual Intel Xeon Scalable nodes per rack	Uses external host server via dual x16 PCIe links, no CPU on board
GPU Capacity	Up to 48 NVIDIA data center GPUs per rack, scalable to 128+ with multi-rack	Up to 8 NVIDIA GPUs in one chassis
Storage	Up to 96 NVMe SSD drives per rack	No internal drives; storage provided by host server or external system
Networking	Up to 32 × 100 Gb InfiniBand/Ethernet NICs per rack	Supports up to 2 high-bandwidth NIC cards for optional data I/O
Interconnect Fabric	48-port PCIe Gen4 switch fabric for composable resource sharing	Dual PCIe 4.0 x16 host interfaces with 512 Gbps total bandwidth
GPU-to-GPU Links	NVLink/NVSwitch supported depending on GPU integration	NVIDIA NVLink 3rd Gen between GPUs with up to 600 GB/s communication
Power Supply	Rack power distribution supports up to ~52 kW	4000 W redundant power supply built in
Management Software	Composable infrastructure management with API and GUI control	Managed as part of the GPultima cluster or via the host system

Échelles de racks d’entraînement IA

Caractéristiques de la gamme

Téléchargements

GPultima CI Rack-Scale System – Datasheet

Qu’est-ce qu’il y a dans cette gamme ?

Contactez-nous

Acal BFi UK

FAQs