Inspur Information führt Benchmark-Test MLPerf Inference v2.0 über alle Rechenzentren der Closed Division an

27 April 2022

Deutliche Leistungssteigerungen bei Bildklassifizierung (31,5 %), Spracherkennung (28,5 %) und Verarbeitung natürlicher Sprache (21,3 %)

SAN JOSE, Kalifornien / STUTTGART, 27. April 2022 – Das Open-Engineering-Konsortium MLCommons veröffentlichte kürzlich die Ergebnisse von MLPerf™ Inference v2.0, der führenden KI-Benchmark-Suite. Inspur Informations KI-Server stellten in allen 16 Aufgaben der Kategorie „Data Center Closed” Rekorde auf und zeigten die beste Leistung in realen KI-Anwendungsszenarien.

MLPerf™ wurde vom Turing Award-Gewinner David Patterson und führenden Wissenschaftsinstituten gegründet. Es ist der weltweit führende KI-Leistungsbenchmark, der zweimal im Jahr KI-Inferenz- und KI-Trainingstests organisiert, um die schnell wachsende KI-Entwicklung zu verfolgen und zu bewerten. Es gibt zwei Bereiche von MLPerf™: Closed und Open. Die Closed-Division ermöglicht einen direkten Vergleich zwischen den Anbietern, da sie die Verwendung desselben Modells und Optimierers voraussetzt – das macht sie zu einem herausragenden Referenz-Benchmark.

Der erste KI-Inferenz-Benchmark von MLPerf™ im Jahr 2022 zielte darauf ab, die Inferenzgeschwindigkeit und die Fähigkeiten von Rechensystemen verschiedener Hersteller bei verschiedenen KI-Aufgaben zu untersuchen. Die Closed Division für die Kategorie Rechenzentren ist die am stärksten umkämpfte Division. Insgesamt wurden 926 Ergebnisse eingereicht, doppelt so viele wie beim vorherigen Benchmark.

KI-Server von Inspur stellen neue Rekorde bei der Inferenzleistung auf

Der MLPerf™-Benchmark für KI-Inferenz deckt sechs weit verbreitete KI-Aufgaben ab: Bildklassifizierung (ResNet50), Verarbeitung natürlicher Sprache (BERT), Spracherkennung (RNN-T), Objekterkennung (SSD-ResNet34), Segmentierung medizinischer Bilder (3D-Unet) und Empfehlung (DLRM). Die MLPerf™ Benchmarks erfordern eine Genauigkeit von mehr als 99 Prozent des ursprünglichen Modells. Für die Verarbeitung natürlicher Sprache, die Segmentierung medizinischer Bilder und Empfehlungen werden zwei Genauigkeitsziele von 99 und 99,9 Prozent festgelegt, mit denen die Auswirkungen auf die Rechenleistung untersucht werden, wenn das Qualitätsziel der KI-Inferenz verbessert wird.

Um die MLPerf™-Inferenztests besser an die reale Nutzung anzupassen, gibt es zwei erforderliche Szenarien für die Kategorie „Rechenzentrum”: Offline und Server. In Offline-Szenarien sind alle für die Aufgabe erforderlichen Daten lokal verfügbar. Beim Serverszenario werden die Daten auf Anforderung online in einzelnen Intervallen bereitgestellt.

  • Der KI-Server von Inspur stellte mit der Verarbeitung von 449.856 Bildern pro Sekunde in der ResNet50-Modellaufgabe einen Leistungsrekord auf. Dies entspricht der Klassifizierung von 1,28 Millionen Bildern im ImageNet-Datensatz in nur 2,8 Sekunden.
  • In der 3D-UNet-Modellaufgabe gelang Inspur ein neuer Rekord für die Verarbeitung von 36,25 medizinischen Bildern pro Sekunde, was der Segmentierung von 207 medizinischen 3D-Bildern im KiTS19-Datensatz innerhalb von 6 Sekunden entspricht.
  • In der SSD-ResNet34-Modellaufgabe erreichte Inspur einen neuen Rekord für die Erkennung und Identifizierung von Zielobjekten aus 11.081,9 Bildern pro Sekunde.
  • In der BERT-Modellaufgabe stellte Inspur einen Leistungsrekord auf, indem es durchschnittlich 38.776,7 Fragen und Antworten pro Sekunde bearbeitete.
  • In der RNNT-Modellaufgabe stellte Inspur mit durchschnittlich 155.811 Spracherkennungskonvertierungen pro Sekunde einen Rekord auf.
  • In der DLRM-Modellaufgabe stellte Inspur mit durchschnittlich 2.645.980 Klickvorhersagen pro Sekunde den besten Rekord auf.

In der Kategorie „Edge Inference“ schnitten die für Edge-Szenarien konzipierten KI-Server von Inspur ebenfalls gut ab. NE5260M5, NF5488A5 und NF5688M6 gewannen 11 von 17 Aufgaben in der Closed Division.

Mit der kontinuierlichen Entwicklung von KI-Anwendungen ermöglicht eine schnellere Inferenzverarbeitung eine höhere Effizienz und Leistungsfähigkeit von KI-Anwendungen und beschleunigt den Wandel zu intelligenten Industrien. Im Vergleich zum MLPerf™ AI Inference v1.1 haben die Inspur KI-Server Bildklassifizierung, Spracherkennung und Verarbeitung natürlicher Sprache um 31,5 Prozent, 28,5 Prozent bzw. 21,3 Prozent verbessert. Das heißt, dass der Inspur KI-Server verschiedene KI-Aufgaben in Szenarien wie autonomes Fahren, Sprachkonferenzen, intelligente Fragen und Antworten und intelligente medizinische Versorgung effizienter und schneller ausführen kann.

Umfassende Optimierung fördert die kontinuierliche Verbesserung der KI-Leistung

Für die herausragende Leistung der Inspur KI-Server in den MLPerf™-Benchmarks sind die exzellenten Systemdesign-Fähigkeiten von Inspur und die umfassenden Optimierungsmöglichkeiten für KI-Computing-Systeme verantwortlich.

Der Inspur KI-Server NF5468M6J unterstützt 12x NVIDIA A100 Tensor Core GPUs mit einer mehrschichtigen und skalierbaren Computing-Architektur und stellt 12 MLPerf™-Rekorde auf. Inspur bietet zudem Server an, die 8x 500W NVIDIA A100 GPUs unterstützen und sowohl Flüssigkeits- als auch Luftkühlung nutzen. Unter den High-End-Mainstream-Modellen, die 8x NVIDIA-GPUs mit NVLink in diesem Benchmark einsetzen, erzielten die Inspur KI-Server die besten Ergebnisse in 14 von 16 Aufgaben in der Kategorie „Rechenzentrum”. Unter ihnen unterstützt der NF5488A5 8x NVlink A100 GPUs der dritten Generation und 2x AMD Milan CPUs in einem 4U Raum. NF5688M6 ist ein KI-Server mit extremer Skalierbarkeit, der für Hyperscaler optimiert ist. Er unterstützt 8x NVIDIA A100 GPUs und 2x Intel Icelake CPUs und unterstützt bis zu 13x PCIe Gen4 IO Erweiterungskarten.

Der NE5260M5 in der Kategorie „Edge Inference“ verfügt über optimierte Signalisierungs- und Stromversorgungssysteme und bietet weitreichende Kompatibilität mit Hochleistungs-CPUs und einer breiten Palette von KI-Beschleunigerkarten. Er zeichnet sich durch ein stoßdämpfendes und geräuschreduzierendes Design aus und wurde strengen Belastungstests unterzogen. Mit einer Gehäusetiefe von 430 mm, was fast der halben Tiefe herkömmlicher Server entspricht, lässt er sich auch in platzbeschränkten Edge-Computing-Szenarien einsetzen.

Der Inspur KI-Server optimiert den Datenfluss zwischen CPU und GPU durch Feinkalibrierung und umfassende Optimierung der CPU- und GPU-Hardware. Auf der Software-Ebene kann durch die verbesserte Round-Robin-Planung für mehrere GPUs, die auf der GPU-Topologie basieren, die Leistung einer einzelnen GPU oder mehrerer GPUs nahezu linear gesteigert werden. Beim Deep Learning wird die Leistung des Modells durch einen von Inspur entwickelten Kanalkomprimierungsalgorithmus auf der Grundlage der Recheneigenschaften der NVIDA GPU Tensor Core Unit optimiert.

Die vollständigen Ergebnisse von MLPerf™ Inference v2.0 finden Sie unter:

https://mlcommons.org/en/inference-datacenter-20/

https://mlcommons.org/en/inference-edge-20/