Inspur Information KI-Server mit NVIDIA A100 Tensor Core GPUs halten Spitzenplatz bei Single-Node Performance in MLPerf Training v2.0 Global AI Benchmarks

12 August 2022

BERT-Modell mit Transformer-Architektur hat zum dritten Mal in Folge eine ausgezeichnete Leistung durch erweiterte hardwarebasierte Optimierung erreicht

SAN JOSE, Kalifornien / STUTTGART, XX. August 2022 – Das Open-Engineering-Konsortium MLCommons hat die neuesten Ergebnisse des MLPerf™ Training v2.0 veröffentlicht, bei dem die KI-Server von Inspur bei der Single-Node-Leistung in der closed division Spitzenreiter sind.

MLPerf ist der weltweit führende KI-Leistungsbenchmark. Er wird von MLCommons mit Mitgliedern aus mehr als 50 weltweit führenden KI-Unternehmen und führenden akademischen Einrichtungen verwaltet, darunter Inspur Information, Google, Facebook, NVIDIA, Intel, Harvard University, Stanford University und die University of California, Berkeley. MLPerf KI Training Benchmarks werden zweimal im Jahr durchgeführt, um Verbesserungen in der Rechenleistung zu verfolgen und den Nutzern maßgebliche Datenempfehlungen zu liefern.

Am letzten MLPerf Training v2.0 nahmen 21 globale Hersteller und Forschungseinrichtungen teil, darunter Inspur Information, Google, NVIDIA, Baidu, Intel-Habana und Graphcore. Es gab 264 Einreichungen, 50 Prozent mehr als in der vorherigen Runde. Die acht KI-Benchmarks decken aktuelle Mainstream-KI-Szenarien ab, darunter die Bildklassifizierung mit ResNet, die Segmentierung medizinischer Bilder mit 3D U-Net, die Erkennung von Leichtgewichten mit RetinaNet, die Erkennung von Schwergewichten mit Mask R-CNN, die Spracherkennung mit RNN-T, die Verarbeitung natürlicher Sprache mit BERT, Empfehlungen mit DLRM und Reinforcement Learning mit MiniGo.

Bei den Benchmarks der closed division für Single-Node-Systeme war Inspur Information mit seinen High-End-KI-Servern Spitzenreiter bei der Verarbeitung natürlicher Sprache mit BERT, bei Empfehlungen mit DLRM und bei der Spracherkennung mit RNN-T. Inspur Information gewann die meisten Titel unter den eingereichten Single-Node-Systemen. Bei den Mainstream-High-End-KI-Servern, die mit acht NVIDIA A100 Tensor Core GPUs ausgestattet sind, belegten die KI-Server von Inspur Information in fünf Aufgaben (BERT, DLRM, RNN-T, ResNet und Mask R-CNN) die Spitzenplätze.

Weiterhin führend bei der KI-Rechenleistung

Inspurs KI-Server erzielen durch umfassende Software- und Hardware-Optimierung weiterhin Durchbrüche bei der KI-Leistung. Im Vergleich zu den MLPerf v0.5-Ergebnissen im Jahr 2018 zeigten die Inspur KI-Server signifikante Leistungsverbesserungen von bis zu 789 % für typische 8-GPU-Servermodelle.

Die Top-Leistung der Inspur KI-Server in MLPerf beruht auf der herausragenden Design-Innovation und den umfassenden Optimierungsmöglichkeiten für KI. Das PCIe-Retimer-freie Design der Inspur KI-Server konzentriert sich auf den Bottleneck der intensiven E/A-Übertragung beim KI-Training und ermöglicht eine Hochgeschwindigkeitsverbindung zwischen CPUs und GPUs für geringere Kommunikationsverzögerungen.

Für die gemeinsame Planung von Aufgaben mit hoher Last und mehreren GPUs wird die Datenübertragung zwischen NUMA-Knoten und GPUs optimiert, um sicherzustellen, dass die Daten-I/O bei Trainingsaufgaben auf dem höchsten Leistungsstand sind. In Bezug auf die Wärmeableitung ist Inspur Information Vorreiter beim Einsatz von acht 500W High-End NVIDIA Tensor Core A100 GPUs in einem 4U Raum und unterstützt Luft- und Flüssigkeitskühlung. Gleichzeitig optimieren die Inspur KI-Server weiterhin die Leistung der Datenverarbeitung vor dem Training und nutzen kombinierte Optimierungsstrategien wie Hyperparameter und NCCL-Parameter sowie die zahlreichen Verbesserungen des NVIDIA KI-Software-Stacks, um die Trainingsleistung von KI-Modellen zu maximieren.

Deutlich verbesserte Trainingsleistung durch Transformer

Vortrainierte massive Modelle auf Grundlage der Transformer-Architektur neuronaler Netze haben zur Entwicklung einer neuen Generation von KI-Algorithmen geführt. Das BERT-Modell in den MLPerf-Benchmarks basiert auf der Transformer-Architektur. Die übersichtliche und stapelbare Architektur von Transformern ermöglicht das Training umfangreicher Modelle mit riesigen Parametern. Das hat zu einer enormen Verbesserung der Algorithmen für große Modelle geführt, stellt aber auch höhere Anforderungen an die Verarbeitungsleistung, die Kommunikationsverbindungen, die E/A-Leistung, die parallelen Erweiterungen, die Topologie und die Wärmeableitung für KI-Systeme.

Im BERT-Benchmark haben die Inspur KI-Server die BERT-Trainingsleistung mit Hilfe von Methoden wie der Optimierung der Datenvorverarbeitung, der Verbesserung der dichten Parameterkommunikation zwischen NVIDIA-GPUs und der automatischen Optimierung von Hyperparametern usw. nochmals verbessert. Die KI-Server von Inspur Information können das Training des BERT-Modells mit ca. 330 Millionen Parametern in nur 15,869 Minuten abschließen, wobei 2.850.176 Daten aus dem Wikipedia-Datensatz verwendet werden – eine Leistungssteigerung von 309% im Vergleich zur Spitzenleistung von 49,01 Minuten in Training v0.7. Damit haben die Inspur KI-Server den MLPerf Training BERT Benchmark zum dritten Mal in Folge gewonnen.

NF5488A5 und NF5688M6 sind die beiden KI-Server von Inspur Information, die bei MLPerf Training v2.0 am besten abgeschnitten haben. NF5488A5 ist einer der ersten Server weltweit, der acht NVIDIA A100 Tensor Core-GPUs mit NVIDIA NVLink-Technologie und zwei AMD Milan-CPUs in einem 4U-Raum und sowohl Flüssigkeits- als auch Luftkühlung unterstützt: Er hat insgesamt 40 MLPerf-Titel gewonnen. Der NF5688M6 ist ein skalierbarer KI-Server, der für die Optimierung großer Rechenzentren entwickelt wurde. Er unterstützt acht NVIDIA A100 Tensor Core GPUs und zwei Intel Ice Lake CPUs, bis zu 13 PCIe Gen4 IO und hat insgesamt 25 MLPerf-Titel gewonnen.

图片1