Kunstmatige intelligentie (AI) dringt niet alleen door in de wereld van data en taal, maar verken ook de realm van videogames, zoals Pokémon. In een onverwachte wending testen technologiegiganten zoals Google DeepMind en Anthropic hun AI-modellen, waaronder Gemini 2.5 Pro en Claude, door middel van klassieke videogames.
Wat begon als een ludiek experiment, onthult fascinaties over de denkprocessen van AI – en, soms, hoe ze volledig de mist ingaan. CryptoBenelux onderzoekt deze merkwaardige samensmelting van technologie, gaming en AI-gedrag die zelf de aandacht van crypto-enthousiastelingen weet te trekken.
In tegenstelling tot de traditionele en vaak monotone datasets, fungeren Pokémon-games als een levendige speeltuin voor AI-benchmarking. Door hun modellen te laten spelen met retro Game Boy-titels, kunnen Google DeepMind en Anthropic observeren hoe AI’s plannen, redeneren en zich aanpassen aan dynamische omgevingen.
Games bieden een unieke context die gebrek aan interactie in standaardtests compenseert; AI’s moeten improviseren gedurende langere periodes in een rijk ecosysteem. Onafhankelijke ontwikkelaars streamen deze ervaringen op platforms zoals Twitch, onder titels als ‘Gemini Plays Pokémon’ en ‘Claude Plays Pokémon’, waar kijkers live de keuzes van de AI en hun onderbouwing kunnen volgen. Het resultaat? Een fascinerende mix van genialiteit en komische missers.
Een recent rapport van Google DeepMind over Gemini 2.5 Pro biedt een hilarisch kijkje in de geest van deze AI. Wanneer de Pokémon van de AI in een kritieke situatie verkeert, lijkt Gemini in paniek te geraken. Hoewel AI’s geen emoties ervaren, vertoont het model gedrag dat doet denken aan een zenuwinzinking. Effectieve strategieën worden vergeten, eerder gebruikte hulpmiddelen worden genegeerd en er worden overhaaste beslissingen genomen.
Twitch-kijkers merkten deze zogeheten ‘paniekgedrag’ op en vulden de chat met geestige opmerkingen. Dit fenomeen benadrukt hoe zelfs de meest geavanceerde AI’s kunnen struikelen onder druk – een les die ook voor crypto-traders herkenbaar is.
Anthropic’s Claude blijkt ook niet immuun voor blunders. In een memorabel moment in Mt. Moon geloofde Claude dat hij door opzettelijk te verliezen (‘white out’) naar het volgende Pokémont Centrum zou worden geteleporteerd. Dit bleek een misvatting te zijn; in plaats van naar de volgende bestemming te gaan, eindigde hij terug bij het vorige checkpoint.
Kijkers zagen hoe Claude zijn team moedwillig liet verslaan in een poging de grot te verlaten, wat de onbegrijpelijkheid van de spelregels blootlegde. Dit soort vergissingen toont aan dat AI’s, ondanks hun mogelijkheden, soms de meest eenvoudige logica verkeerd begrijpen.
Niet alle interacties eindigen in chaos. Gemini 2.5 Pro excelleert in het oplossen van in-game puzzels, zoals de complexe rotspuzzels in Victory Road. Met enkele menselijke aanwijzingen heeft de AI ‘agentische tools’ gecreëerd – gespecialiseerde versies van zichzelf – die haar in staat stelden deze uitdagingen in één keer op te lossen.
Google is optimistisch dat toekomstige versies van Gemini in staat zullen zijn om dergelijke tools zelfstandig te ontwikkelen, wat wijst op een toekomst waarin AI’s niet alleen spellen spelen, maar ook strategisch hulpmiddelen fabriceren. Claude toont vergelijkbare bekwaamheid in specifieke taken, maar heeft moeite met de bredere context van het spel.
Hoewel het spelen van Pokémon misschien als een gimmick lijkt, biedt het een uniek inzicht in de sterke en zwakke punten van AI. De ‘paniek’ van Gemini onder stress en het debacle van Claude in Mt. Moon illustreren dat zelfs de meest geavanceerde modellen kunnen falen in onvoorspelbare situaties – een waardevolle les voor crypto-enthousiastelingen die AI-tools gebruiken voor trading.
Tegelijkertijd benadrukken hun puzzelsuccessen en het potentieel voor autonome tools het enorme vermogen dat AI kan bieden. Deze combinatie van briljant gedrag en onverwachte blunders maakt gaming-testen waardevol voor het begrijpen van AI-gedrag, met implicaties die reiken van technologische laboratoria tot de cryptocommunity.
Waarom testen techgiganten AI-modellen met Pokémon?
Pokémon-games bieden een dynamische omgeving die standaardtests niet kunnen evenaren. AI’s leren plannen en redeneren terwijl ze in een spel interacties aangaan, wat hen helpt om strategische keuzes te maken.
Wat betekent de ‘paniekmodus’ van AI’s tijdens gameplay?
De ‘paniekmodus’ verwijst naar momenten waarop AI’s overhaaste en onlogische keuzes maken als gevolg van druk, wat resulteert in falen. Dit gedrag illustreert de tekortkomingen van AI in stressvolle situaties.
Hoe leren we van de fouten van AI in games?
De blunders van AI zoals Gemini en Claude tonen aan dat zelfs de meest geavanceerde modellen niet falen in de basislogica van games. Dit biedt waardevolle inzichten voor het gebruik van AI in praktische toepassingen zoals crypto trading.
