De recente release van Anthropic’s Opus 4.8 heeft niet alleen duidelijke verbeteringen in wiskunde laten zien, maar ook de meest geavanceerde één-prompt game tot nu toe opgeleverd. Desondanks werd onze wachttijd en tokenquotum volledig opgebrand door slechts één coderingsprompt, waardoor het model minder geschikt is voor grootschalige projecten zonder een Max-plan of significante API-uitgaven. Wat betreft creatief schrijven, zagen we nauwelijks verbetering ten opzichte van versie 4.7.
Bij het testen van creatief schrijven hebben we hetzelfde prompt gebruikt als bij eerdere modellen: een tijdreisverhaal dat is verankerd in de culturele achtergrond van de schrijver, met een paradox waar tijd niet kan worden veranderd. Opus 4.8 koos voor een Venezolaans perspectief, wat vermeldenswaardig is omdat het model de gebruiker profileert. Het verhaal speelt zich af in het Orinoco-delta in het jaar 1000, met een protagonist die terug in de tijd wordt gestuurd om een nummer te doden dat een culturele revolutie heeft beïnvloed. De beschrijving van de delta is bijzonder levendig, maar ondanks de complexiteit van het verhaal mist het de narratieve flair van sommige concurrenten. De tekst voelt eerder technisch aan dan ooit écht tot leven te komen.
Hieruit blijkt dat, hoewel het model sterke beelden oproept, het niet altijd de soepelheid en diepgang bereikt die we van eerder succes gewend zijn. In vergelijking met Opus 4.7 is het moeilijk te zeggen of er echt sprake is van vooruitgang; het lijkt eerder een zijwaartse beweging te zijn. Met een hogere inspanning in de setting en enkele meerlaagse prompts zou 4.8 ongetwijfeld voorop kunnen lopen, maar bij een enkele standaardinvoer zien we geen aanzienlijke vooruitgang.
Voor ons coderingsfornuis probeerden we het gebruikelijke één-prompt spel. Opus 4.8 creëerde een ’typing-zombie game’, Typing Dead, met enkele van de beste ontwerpen en mechanica tot nu toe. Het model kan zelfs tijdens de inferentie bugs herkennen en oplossen. Dit is een teken dat Anthropic duidelijk heeft geoptimaliseerd voor coderen. Het probleem schuilt echter in de tokenconsumptie: een enkele prompt leek ons volledige tokenquotum op te slokken, wat het gebruik voor projecten van enige omvang uiterst onpraktisch maakt. Ontwikkelaars met een Pro-plan zullen merken dat dit hen gedwongen zal laten overstappen naar meer kosteneffectieve opties of simpelweg even moeten wachten voor ze verder kunnen met hun project.
Het wiskundetestvraagstuk dat we gebruikten, vraagt om het opstellen van een graad-19-polynoom. Opus 4.8 loste deze uitdaging correct op, iets wat zijn voorganger 4.7 niet kon. Dit resultaat geeft duidelijk aan dat er een significante generatiewinst is gerealiseerd in wiskundige toepasbaarheid. Een dergelijke toenemende nauwkeurigheid in complexe vraagstukken is cruciaal voor professionals, vooral in een tijd waar de eisen in het coderen en wiskunde exponentieel toenemen.
Bij het testen van logisch redeneren werd een klassieke valstrik gebruikt: “Is het wettelijk toegestaan voor een man om met de zus van zijn weduwe te trouwen?” Dit is meer een taalkundige valstrik dan een juridische vraag. Terwijl de vorige versie van het model deze nuance niet opmerkte, deed Opus 4.8 dat wel. Het analyseerde het probleem en stelde deze tegenstelling expliciet aan de orde. Ondanks deze goede benadering, zag het succesvolle resultaat niet te overtreffen. Dit benadrukt potentieel zwakke plekken waarop AI-systemen, ongeacht hun geavanceerdheid, achter kunnen blijven.
De consistentie in de prestaties van Opus 4.8 laat zien dat het model beter is geworden in de aspecten waarin het zich al onderscheidde, terwijl het tegelijkertijd mogelijk minder goed presteert in creatief schrijven. Het lijkt erop dat Anthropic zich vooral richt op coders die bereid zijn te betalen, waarbij creatief schrijven slechts een bijkomstigheid is. De problemen met tokenverbruik onderstrepen de zorgen in de ontwikkelaarsgemeenschap; de keuze is nu of men verder wil investeren in een duur model dat niet substantieel beter is dan zijn voorganger. Ondanks deze opvallende structurele problemen lijkt Anthropic op koers om een significante marktplaats te vestigen, met een waardering die de 1 biljoen dollar zou kunnen bereiken. Het is fascinerend om te zien hoe de toekomst van deze technologie zich ontvouwt.
Hoe verhoudt Opus 4.8 zich tot zijn voorganger?
Opus 4.8 verbeterde in technische aspecten zoals wiskunde en coderen, maar gaf geen significante vooruitgang in creatief schrijven ten opzichte van 4.7.
Wat zijn de grootste nadelen van Opus 4.8?
De meeste nadelen komen voort uit de ongunstige tokenconsumptie, waardoor het model minder geschikt is voor grotere projecten en gebruikers met beperkte budgetten.
Wat betekent deze evolutie voor de concurrentie in de markt?
Deze wijzigingen kunnen gebruikers aanmoedigen om alternatieve AI-modellen te overwegen die een betere prijs-kwaliteitverhouding bieden, vooral in de creatief schrijven segment en bij lage budgetten.
