Inspur Information und MEGWARE bauen innovativen GPU-Cluster für die Friedrich-Alexander-Universität Erlangen-Nürnberg 

31 May 2022

Die Leistungsziele in den Bereichen maschinelles Lernen und Molekulardynamik wurden übertroffen, die entscheidend für den Fortschritt der wissenschaftlichen Forschung und Entwicklung sind

Stuttgart, 31. Mai 2022 – Inspur Information, führender Anbieter von IT-Infrastrukturlösungen, und MEGWARE, Anbieter von High-Performance-Computing (HPC)-Lösungen in Europa, haben die wissenschaftlichen Forschungskapazitäten der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) um das Erlanger Nationale Zentrum für High-Performance Computing (NHR@FAU) ausgebaut. Der fortschrittliche GPU-Cluster, der aus Inspur GPU-Servern besteht, ist voll einsatzfähig und hat seine ursprünglichen Leistungsziele in den Bereichen maschinelles Lernen und Molekulardynamik weit übertroffen.

Die FAU ist eine führende wissenschaftliche Forschungseinrichtung in Europa und liegt laut Reuters auf dem zweiten Platz der innovativsten europäischen Universitäten. Sie ist für ihre natur- und ingenieurwissenschaftlichen Studiengänge in Bereichen wie Materialwissenschaften, Chemie, Biowissenschaften, Informatik und Biomedizintechnik bekannt. Maschinelles Lernen (ML) wird für viele Forschungsbereiche der FAU immer wichtiger,  besonders in der Informatik. Zusätzlich zu ML haben Molekulardynamiksimulationen (MD) die numerische Simulation vieler realer und komplexer physikalischer Modelle an der FAU ermöglicht – die Nachfrage nach Simulationen dieser Modelle mithilfe von HPC wächst exponentiell.

Um diesen Bedarf an massivem parallelem Rechnen zu decken, wollte NHR@FAU den größten Rechencluster in der Geschichte der Universität entwickeln und damit seine Forschungs- und HPC-Fähigkeiten erheblich erweitern. Als Teil der „NHR-Allianz“, einem Zusammenschluss von neun Rechenzentren in Deutschland, sollte das neue System an NHR@FAU auch Forschern und Forscherinnen an anderen deutschen Universitäten zur Verfügung stehen. Eine europaweite Ausschreibung von NHR@FAU brachte die Entscheidung für Inspur und MEGWARE aufgrund ihrer Kombination von leistungsstarken GPU-Servern, Systemintegration und Optimierungskompetenz.

Der neue, von Inspur betriebene GPU-Cluster „Alex“ ist die Kernkomponente der HPC-Infrastruktur von NHR@FAU, um den schnell wachsenden Bedarf an Rechenressourcen für ML und MD in der wissenschaftlichen Forschung zu decken. „Alex“ gehört zu den TOP500 und Green500 der leistungsstärksten und energieeffizientesten HPC-Systeme der Welt. Er besteht aus 32 NF5488A5 und 38 NF5468A5 Inspur GPU-Servern, die insgesamt 256 NVIDIA A100 Tensor Core GPUs und 304 NVIDIA A40 Tensor Core GPUs für maximale GPU-Rechenleistung bereitstellen. Zusätzlich zu den massiven GPU-Ressourcen stehen 140 AMD EPYC 7713 CPUs zur Verfügung, die gesamte Speicherkapazität beträgt fast 50 TB. Der Cluster ist über ein Hochgeschwindigkeits-HDR-InfiniBand-Netzwerk verbunden. Das Ergebnis ist ein hervorragender Rechnerverbund für allgemeine Computing-Anforderungen  mit exzellenter MD- und KI-Leistung, auf dem zahlreiche forschungsspezifische Software mit unterschiedlichen Hardwareanforderungen ausgeführt werden kann – bei gleichzeitiger Unterstützung großer ML-Datensätze und Verbesserung der Trainingseffizienz.

Als grundlegende Komponente des GPU-Clusters „Alex“ bieten die GPU-Server von Inspur eine hohe Leistungsfähigkeit:

Der Inspur NF5488A5 ist mit 8 NVIDIA A100 Grafikprozessoren und 2 64-Core AMD EPYC 7713 CPUs in einem 4U-Gehäuse ausgestattet und nutzt einen NVSwitch GPU-Interconnect. Das Design hebt die Leistung hervor, reduziert gleichzeitig die Betriebs- und Wartungskosten und erleichtert die Installation. 

Der Inspur NF5468A5 ist mit 8 NVIDIA A40 Tensor Core GPUs und 2 AMD EPYC 7713 CPUs in einem 4U-Gehäuse ausgestattet. Er nutzt eine PCIe 4.0-Hochgeschwindigkeitsschnittstelle für die CPUs und GPUs, ohne einen PCIe-Switch zu verwenden, was Kommunikationsverzögerungen zwischen den CPUs und GPUs eliminiert und die Rechenleistung verbessert.

Die HPC-Lösung von Inspur und MEGWARE hat die wissenschaftlichen Forschungsmöglichkeiten der FAU deutlich gesteigert. Die Leistung für Modelltraining und -inferenz hat die ursprünglichen Erwartungen der FAU um 115% übertroffen, nach den Hardware-Empfehlungen von Inspur, die besser für die Anforderungen der FAU optimiert waren – einschließlich der Verwendung der Flaggschiff-Server NF5488A5 und NF5468A5 von Inspur.

Der Alex-Cluster von NHR@FAU, der auf Inspur GPU-Servern läuft, führt erfolgreich Anwendungen wie ML (Tensorflow, PyTorch), chemische Anwendungen (Quantum Espresso und VASP) und wissenschaftliche Forschungssoftware wie NAMD, LAMMPS, AMBER, GROMACS usw. aus. Die FAU und die deutschen Universitäten sind nun in der Lage, wissenschaftliche Forschung auf einem Niveau zu betreiben, wie es vor wenigen Jahren nicht möglich war; heute stehen sie an der Spitze der wissenschaftlichen Forschung.

Inspur verfügt über das weltweit führende GPU-Server-Produktportfolio, das branchenführende Leistung, umfassende Produkte und schnelle Markteinführungszeiten bietet. GPU-Server von Inspur werden häufig in der Bilderkennung, Spracherkennung, Verarbeitung natürlicher Sprache und anderen Bereichen eingesetzt. Inspur verfügt über eine große Auswahl an NVLink A100 GPU- und PCIe GPU-Servern. Basierend auf innovativen Designs und Full-Stack-Leistungsoptimierung ist Inspur ein Top-Performer in MLPerf, einer weltweit führenden KI-Benchmark-Suite, die seit MLPerf Inference 0.7 91 Top-Platzierungen in der Single-Node-Leistung erhalten hat. Laut IDC erreichte der weltweite Markt für KI-Server im ersten Halbjahr 2021 einen Wert von 6,66 Milliarden US-Dollar, wobei Inspur einen Marktanteil von 20,2 Prozent hält und damit seine Position als weltweit größter KI-Server-Anbieter aufrechthält.