In den aktuellen Marktnachrichten wird erwartet, dass NVIDIA im September mit der Testphase seines Rubin AI-Beschleunigers der nächsten Generation für ausgewählte Kunden beginnt. Dies geschieht nur sechs Monate nach der Einführung des Blackwell Ultra und deutet auf ein bemerkenswert schnelles Entwicklungstempo hin. Die Rubin R100 GPUs sowie die neuen Vera CPUs basieren auf dem 3nm-Prozess von TSMC, integrieren HBM4-Speicher und verwenden ein Chiplet-Design. Diese Fortschritte bieten umfassende Upgrades in Bezug auf Leistung, Energieeffizienz und Architektur.
Die Rubin R100 GPU symbolisiert den neuesten AI-Beschleuniger von NVIDIA. Basierend auf der Blackwell-Architektur zielt der R100 darauf ab, die wachsenden Rechenanforderungen von Rechenzentren zu erfüllen. Durch Nutzung des N3P-Prozesses von TSMC (3nm-performance enhanced) bietet der R100 eine 20% höhere Transistordichte, eine Reduzierung des Stromverbrauchs um 25-30% und eine Leistungssteigerung von 10-30% im Vergleich zum 4nm-Prozess des Blackwell B100. Diese technologischen Fortschritte maximieren die Energieeffizienz des R100 und machen es besonders geeignet für anspruchsvolle AI-Trainings- und Inferenzaufgaben. Besonders hervorzuheben ist das Chiplet-Design des R100, das durch die Integration mehrerer kleinerer Chip-Module sowohl die Fertigungserträge als auch die architektonische Flexibilität verbessert. Mit einem 4-fachen Reticle-Design im Vergleich zum 3,3-fachen Reticle von Blackwell ermöglicht es die Integration einer größeren Anzahl an Recheneinheiten und Speicherschnittstellen.
In Bezug auf den Speicher setzt der R100 auf acht HBM4-Stacks mit einer Gesamtkapazität von 288 GB, wobei Bandbreiten von bis zu 13 TB/s erreicht werden können. Dies stellt eine signifikante Verbesserung gegenüber dem HBM3E des Blackwell B100 dar, das etwa 8 TB/s erreicht. HBM4 setzt auf eine 12- oder 16-Schicht-Stack-Technologie und bietet eine Kapazität von 24 GB oder 32 GB pro Stack, was eine robuste Speicherunterstützung für große Sprachmodelle und komplexe AI-Verarbeitung gewährleistet. Darüber hinaus nutzt der R100 die CoWoS-L-Verpackungstechnologie von TSMC, die 100x100mm Substrate ermöglicht und bis zu 12 HBM4-Stapel aufnehmen kann. Dies bildet eine solide Basis für zukünftige Erweiterungen der Rubin Ultra-Serie. Der I/O-Chip verwendet den N5B-Prozess (5nm enhanced), der die Effizienz der Datenübertragung weiter optimiert.
Zusätzlich zur Rubin-GPU präsentiert die Vera-CPU eine vollständige Überarbeitung der Grace-CPU, die auf einem maßgeschneiderten ARM Olympus-Kern mit 88 Kernen und 176 Threads basiert. Dies stellt eine deutliche Verbesserung gegenüber der Grace-Architektur dar, welche 72 Kerne und 144 Threads bot. Die Speicherbandbreite von Vera beträgt 1,8 TB/s und übertrifft damit die Leistung von Grace um das 2,4-Fache, wobei die Speicherkapazität um das 4,2-Fache erhöht wurde, was die Datenverarbeitungsfähigkeiten erheblich verbessert. Vera verbindet sich nahtlos mit den Rubin-GPUs über das NVLink-C2C Highspeed-Interconnect mit einer Bandbreite von 1,8 TB/s, was eine effiziente Inter-Chip-Kommunikation ermöglicht. Seine Leistung übertrifft die von Grace nahezu doppelt, was es besonders geeignet für AI-Inferenz, Datenvorverarbeitung und Multithread-Aufgaben macht. NVIDIA hat den ARM-Befehlssatz und die Mikroarchitektur optimiert, um Vera optimal für die Backend-Anforderungen von AI-Workloads auszurichten.
Seit der Ankündigung der Rubin-Architektur auf der Computex 2024 hat NVIDIA seine Produkt-Roadmap kontinuierlich vorangetrieben. Die Serienproduktion des Rubin R100 wird voraussichtlich im vierten Quartal 2025 beginnen, während die zugehörigen DGX- und HGX-Systeme im ersten Halbjahr 2026 eingeführt werden. Bis zur zweiten Jahreshälfte 2026 wird NVIDIA die Vera Rubin NVL144-Plattform vorstellen, die 144 Rubin-GPUs und zahlreiche Vera-CPUs in einem flüssig gekühlten Oberon-Rack mit 600 kW Leistung integriert. Diese Konfiguration liefert 3,6 ExaFLOPS der Inferenzleistung in FP4 und 1,2 ExaFLOPS der Trainingsleistung in FP8, was einer 3,3-fachen Verbesserung gegenüber dem Blackwell GB300 NVL72 entspricht. Bis 2027 wird die Rubin Ultra NVL576-Plattform 576 Rubin Ultra GPUs beherbergen, darunter 16 HBM4e-Stacks und bis zu 1 TB Speicher. Diese Plattform soll 15 ExaFLOPS der Inferenzleistung in FP4 und 5 ExaFLOPS der Trainingsleistung in FP8 liefern, was eine 14-fache Verbesserung gegenüber der GB300 darstellt. Zudem wird sie das NVLink 7 Interconnect und die ConnectX-9 NIC (1,6 Tbps) integrieren, um die Skalierbarkeit des Systems zu verbessern.
Um den raschen Markteintritt von Rubin zu sichern, hat NVIDIA die Zusammenarbeit mit wichtigen Lieferkettenpartnern wie TSMC und SK Hynix intensiviert. TSMC plant, die CoWoS-Verpackungskapazität bis zum vierten Quartal 2025 auf 80.000 Wafer pro Monat zu erhöhen, um die Nachfrage von Rubin und Apples M5 SoC zu decken. SK Hynix hat im Oktober 2024 den HBM4-Produktionsfluss abgeschlossen und liefert 12-Schicht-HBM4-Muster an NVIDIA mit einer Serienproduktion, die für 2025 geplant ist. Erste Pilot-Produktionsmuster von Rubin GPUs und Vera CPUs wurden im Juni 2025 bei TSMC fertiggestellt, mit Beginn der Produktionsabnahme im September und einer Massenproduktion, die für Anfang 2026 geplant ist.
Der steigende Strombedarf in Rechenzentren hat einen Fokus auf Energieeffizienz im Design ausgelöst. Durch den 3nm-Prozess und den HBM4-Speicher spart der Rubin R100 Energie und optimiert gleichzeitig das Wärmemanagement durch Flüssigkeitskühlungstechnologien und hochdichte Racks. Obwohl die Vera Rubin NVL144-Plattform bis zu 600 kW verbrauchen kann, bieten ihre Rechendichte und Leistung im Vergleich zu früheren Modellen überlegene Leistung pro Leistungseinheit. Marktanalysen prognostizieren, dass der globale AI-Rechenzentrum-Markt bis 2025 auf 200 Milliarden US-Dollar anwachsen wird, wobei NVIDIAs Blackwell- und Rubin-Technologien die führenden Akteure sind. Große Technologieunternehmen wie Microsoft, Google und Amazon haben Blackwell-Chips bis Ende 2025 vorbestellt, und die frühe Einführung von Rubin festigt die Marktdominanz von NVIDIA weiter.
Mit Blick auf die Zukunft plant NVIDIA, die Feynman-Architektur im Jahr 2028 zu enthüllen und die Tradition fortzusetzen, Chips nach renommierten Wissenschaftlern zu benennen. Die erfolgreiche Implementierung von Rubin und Vera wird neue Anwendungen wie AI-Inferenz, Training und agentielle AI unterstützen und die Technologielandschaft in Richtung eines allgemeineren Rahmens lenken. Mit den für September 2025 geplanten Musterlieferungen und der Produktionsbereitstellung bis 2026 ist NVIDIA gut positioniert, um seine Führungsposition im globalen AI-Markt zu behaupten und die Entwicklung von Rechenzentren und AI-Anwendungen weiter voranzutreiben.