
Google’s onlangs gelanceerde Gemini 2.5 Pro heeft zichzelf stevig op de kaart gezet door de toppositie te veroveren in de WebDev Arena, een platform waar de prestaties van AI-modellen bij het coderen worden vergeleken. Dit opmerkelijke resultaat komt ten tijde van Google’s ambitieuze zoektocht om dit AI-model te positioneren als een koploper in zowel coderings- als redeneertaken.
Sinds zijn release eerder dit jaar staat Gemini 2.5 Pro niet alleen op nummer één, maar doet dat ook in verschillende categorieën zoals codering, stijlbeheer en creatief schrijven. Het model blinkt uit met een enorme contextvenster van maar liefst een miljoen tokens, dat binnenkort kan worden uitgebreid naar twee miljoen. Dit stelt het in staat om complexe codebases en uitdagende projecten aan te pakken die zelfs de sterkste concurrenten in de schaduw zetten. Ter vergelijking: robuuste modellen zoals ChatGPT en Claude 3.7 kunnen slechts tot 128K tokens verwerken.
Wat Gemini echt uniek maakt, is dat het de hoogste ‘IQ’ van alle AI-modellen heeft. TrackingAI heeft het model onderworpen aan formele MENSA-testen, waarbij gebruik werd gemaakt van gestandaardiseerde vragen. Gemini 2.5 Pro scoorde hogere resultaten dan zijn concurrenten, zelfs met op maat gemaakte vragen die niet openbaar beschikbaar zijn in trainingsdata. Met een IQ van 115 in offline tests behoort dit model tot de ‘slimsten onder de slimsten’, want de gemiddelde menselijke intelligentie ligt tussen de 85 en 114 punten. Dit moet echter met een korreltje zout genomen worden, aangezien AI-systemen niet hetzelfde soort intelligentie hebben als mensen.
Als het gaat om benchmarks die specifiek voor AI zijn ontworpen, scoorde Gemini 2.5 Pro maar liefst 86,7% op de AIME 2025 wiskundetest en 84,0% op de GPQA wetenschapsbeoordeling. In de Humanity’s Last Exam (HLE) scoorde het model 18,8%, wat een behoorlijke voorsprong betekent ten opzichte van OpenAI’s o3 mini (14%) en Claude 3.7 Sonnet (8,9%).
Gemini 2.5 Pro is nu gratis beschikbaar (met beperkingen) voor alle gebruikers, en Google heeft deze release omschreven als een "experimentele versie" binnen een familie van "denkende modellen" die ontworpen zijn om na te denken over antwoorden in plaats van louter tekst te genereren. Ondanks dat het niet elk benchmark wint, trekt het model de aandacht van ontwikkelaars door zijn veelzijdigheid. Zo genereerde het maar liefst 1000 regels code om een defecte HTML5-code te repareren, wat resulteerde in superieure kwaliteit en begrip in vergelijking met Claude 3.7 Sonnet.
Voor werkende ontwikkelaars kosten de invoer van Gemini 2.5 Pro $2,50 per miljoen tokens en de uitvoer $15,00 per miljoen tokens, wat het een kosteneffectieve keuze maakt ten opzichte van zijn concurrenten terwijl het tegelijkertijd indrukwekkende mogelijkheden biedt. Het model kan tot 30.000 regels code aan in zijn advanced plan, waardoor het geschikt is voor enterprise-level projecten. Bovendien zijn zijn multimodale mogelijkheden—werken met tekst, code, audio, afbeeldingen en video—een ijzersterke troef die andere modellen niet kunnen evenaren.
Met een sprankje humor: wie had gedacht dat AI niet alleen zou kunnen coderen, maar ook creatief aan de slag zou gaan met een dozijn andere media?
Wat maakt Gemini 2.5 Pro zo bijzonder ten opzichte van andere AI-modellen?
Met zijn enorme contextvenster van tot twee miljoen tokens kan het complexere en grotere projecten aan dan zijn concurrenten, wat het onderscheidend maakt in de coderingsarena.
Hoe verhoudt de IQ-score van Gemini zich tot menselijke intelligentie?
Gemini heeft een IQ-score van 115, wat betekent dat het boven het gemiddelde menselijke niveau scoort, maar dit is meer een metafoor voor prestatie dan een directe vergelijking met menselijke intelligentie.
Is Gemini 2.5 Pro gratis beschikbaar voor alle gebruikers?
Ja, het model is gratis beschikbaar met bepaalde gebruiksbeperkingen, waardoor het toegankelijk is voor een breed scala aan ontwikkelaars.