Jensen Huang betrad het podium van Computex in Taipei, gekleed in een leren jas, en introduceerde de Nemotron 3 Ultra — NVIDIA’s grootste open AI model tot nu toe en, voorlopig, het slimste open-gewichten model dat in de Verenigde Staten is ontwikkeld. Ondanks de indrukwekkende specificaties, blijft het achter bij de Chinese concurrentie.
Met ongeveer 550 miljard parameters, waarvan er 55 miljard actief zijn op elk moment, gebruikt dit model een ontwerp dat bekendstaat als mixture-of-experts (mengeling van experts). Parameters zijn de bouwstenen van een AI-model, en een groter aantal gaat gewoonlijk gepaard met een krachtiger model.
Om te begrijpen hoe een mixture-of-experts-model werkt, vergelijk het met een ziekenhuis vol specialisten: wanneer een patiënt binnenkomt, verschijnen alleen de relevante artsen — niet het volledige personeel. Deze aanpak houdt de operationele kosten van het model aanzienlijk lager dan het kwartaal grote aantal parameters doet vermoeden, wat NVIDIA in staat stelt om claims te maken van vijf keer snellere inferentie en 30% lagere kosten vergeleken met soortgelijke open-gewichten alternatieven.
De onafhankelijke beoordelaar Artificial Analysis, die samenwerkte met NVIDIA voor de pre-release beoordeling, positioneerde de Nemotron 3 Ultra op de 48e plaats in hun Intelligent Index — een samengestelde benchmark die tien evaluaties op het gebied van redeneren, coderen, algemene kennis en agentprestaties vastlegt op een genummerde schaal, waarbij hogere cijfers duiden op een slimmer model.
Dit maakt het het beste open-gewichten model uit de VS met een duidelijke marge. De dichtstbijzijnde Amerikaanse modellen zijn Google’s Gemma 4 31B op de 39e plek, Nemotron 3 Super op de 36e en het gpt-oss-120b-model van OpenAI op de 33e plek.
De sprong ten opzichte van zijn voorganger is opvallend. De Nemotron 3 Super, die in maart 2026 werd gelanceerd met 120 miljard parameters, werd al beschouwd als een degelijke open model voor autonome agenten. Ultra vertaalt zich naar een stijging van 12 indexpunten, wat in de benchmarklandschap niet te onderschatten valt.
NVIDIA is al langer actief in de modellenindustrie dan vele realiseren. Het eerste Nemotron-model werd gelanceerd in november 2023, met de derde generatie aangekondigd in december 2025.
De familie bestaat uit drie varianten: Nano voor lichtere taken, Super voor toepassingen in het midden van het bedrijfsleven, en Ultra voor complexe redeneringswerkzaamheden. Alle drie delen ze dezelfde hybride architectuur die Mamba-2-lagen, standaard Transformer-aandacht en mixture-of-experts-routing combineert.
Mamba-2 is een alternatief voor standaard aandacht dat lange sequenties tegen een fractie van de kosten verwerkt — van belang wanneer je een model wilt dat in staat is om een miljoen tokens tegelijk te verwerken. De Nemotron 3 Ultra ondersteunt een contextvenster van een miljoen tokens, wat betekent dat een agent theoretisch een gehele grote codebase of honderden onderzoeksdocumenten gelijktijdig kan bekijken.
Het Ultra-model maakt bovendien gebruik van een techniek genaamd multi-token predictie (MTP), die het model in staat stelt om meerdere toekomstige tokens tegelijkertijd te voorspellen, wat de generatie versnelt. Alle drie de Nemotron 3-modellen zijn na-training ondergaan met behulp van versterkingsleren in verschillende interactieve omgevingen, wat hen leert om multi-stap taken te plannen en uit te voeren in plaats van alleen vragen te beantwoorden.
De gewichten van het Ultra-model zijn openbaar en de trainingsrecepten worden vrijgegeven. Is een supercomputer nodig om het te draaien? In wezen wel: een model met 550 miljard parameters is iets voor datacentrums. Maar het is toegankelijk via de API van NVIDIA of cloudleveranciers zonder dat je de hardware zelf hoeft aan te schaffen, op dezelfde manier waarop gebruikers al GPT of Claude via een browser benaderen.
De snelheid is waar de Nemotron 3 Ultra echt opvalt. Op een pre-release DeepInfra-eindpunt leverde het model meer dan 300 output tokens per seconde. Chinese modellen in dezelfde intelligentieklasse — DeepSeek V4 Pro en Kimi K2.6 — worden momenteel via hun commerciële API’s geleverd met 50 tot 100 tokens per seconde. Dit snelheidsverschil is significant voor echte implementaties, vooral voor autonome agenten die lange multi-stap taken uitvoeren waar wachten op elke stap snel oploopt.
Toch lost ruwe snelheid de intelligentie vergelijking niet op. De gegevens gepresenteerd door Artificial Analysis maken de werkelijke situatie eenvoudig duidelijk. Op de verticale as — intelligentie — staat de Nemotron 3 Ultra op 48, wat goed is, maar China’s Kimi K2.6 van Moonshot AI staat op 54. Het zespunt verschil op de index vertegenwoordigt een betekenisvol verschil: Kimi K2.6 werd in april 2026 uitgebracht en staat momenteel op de vierde plaats wereldwijd onder alle AI-modellen, zowel gesloten als open, met slechts drie punten achter de vlaggenschipmodellen van Anthropic, Google en OpenAI — die allemaal op 57 staan.
De situatie van de open-gewichten in de VS is niet nieuw. Chinese laboratoria hebben de open ecosystemen overspoeld met sterke modellen, terwijl Amerikaanse bedrijven — OpenAI, Anthropic, Google — hun beste systemen achter API’s houden. Zoals Decrypt in maart meldde, stegen de Chinese open-source modellen van ongeveer 1,2% van het wereldwijde gebruik van open modellen eind 2024 naar ongeveer 30% eind 2025. NVIDIA is de grootste Amerikaanse naam die actief probeert deze trend te keren, met een openbaar gemaakte vijfjarenplan om $ 26 miljard uit te geven aan de ontwikkeling van open-gewicht AI.
De Nemotron 3 Ultra is het meest zichtbare resultaat van deze inzet tot nu toe. NVIDIA heeft ook aangekondigd dat het al werkt aan Nemotron 4 — de volgende generatie — die wordt ontwikkeld door de Nemotron Coalition, een groep van acht AI-laboratoria, waaronder Mistral AI en Perplexity, die NVIDIA in maart 2026 heeft samengebracht om samen open grensmodellen te ontwikkelen op de DGX Cloud-infrastructuur. De Nemotron 3 Ultra wordt verzonden op 4 juni.
Wat maakt de Nemotron 3 Ultra uniek ten opzichte van andere modellen?
De Nemotron 3 Ultra onderscheidt zich door zijn enorme snelheid van meer dan 300 tokens per seconde en een hybride architectuur, die het kosten-effectief maakt voor uitgebreide toepassingen.
Hoe verhoudt de Nemotron 3 Ultra zich tot zijn voorganger?
De Nemotron 3 Ultra is met 12 indexpunten gestegen ten opzichte van de Nemotron 3 Super, wat een aanzienlijke vooruitgang betekent in termen van prestaties en mogelijkheden.
Waarom is de concurrentie in de open-gewichten markt zo intens?
Chinese laboratoria hebben sterke modellen ontwikkeld die de markt overspoelen, terwijl Amerikaanse bedrijven hun meer geavanceerde systemen vaak achter gesloten deuren houden. Dit heeft geleid tot een groeiende kloof in open-source AI-ontwikkeling.
