Nieuwe Benchmark: AI-assistenten Tekortkomingen Onthuld

Nieuwe Benchmark Onthult Tekortkomingen In Ai-assistenten: Claw-anything Wijst De Weg Voorwaarts

28 mei 2026 om 10:55

Leestijd: 3 minuten

Op het snijvlak van kunstmatige intelligentie (AI) en digitale assistentie heeft het team van Huawei, in samenwerking met enkele gerenommeerde onderzoeksinstellingen, Claw-Anything ontwikkeld. Deze benchmark is ontworpen om AI-agents te evalueren op hun geschiktheid voor persoonlijke assistentietaken. De bevindingen zijn onthullend: de resultaten suggereren dat de huidige AI-modellen, inclusief de nieuwste ontwikkelingen van OpenAI, achterblijven bij de verwachtingen.

Traditioneel hebben AI-assistenten de claim dat ze, door toegang tot uw digitale leven, alle taken kunnen afhandelen — van e-mails tot agendabeheer. Maar Claw-Anything stelt deze veronderstellingen ter discussie. De benchmark meet de prestaties van AI-agents over drie belangrijke dimensies: langdurige gebeurtenissen die meer dan drie maanden gesimuleerde gebruikersactiviteit omvatten, interafhankelijke back-enddiensten die gemiddeld 10,1 per taak vereisen, en interactie met meerdere apparaten, waaronder CLI (Command Line Interface) Linux-omgevingen en GUI (Graphical User Interface) Android-omgevingen.

Met een gemiddelde contextwindow van 191.700 woorden per taak, overschrijdt Claw-Anything met gemak de beperkingen van bestaande benchmarks, die doorgaans slechts variëren van 1.700 tot 12.000 woorden. Dit benadrukt niet alleen de complexiteit van de dagelijkse behoeften van gebruikers, maar toont ook aan dat huidige AI-modellen meestal niet zijn toegerust voor de echte wereld.

Aanpak en Resultaten van Claw-Anything

Bij de evaluatie van AI-agents wordt de ‘pass@1′-maat gebruikt—een metric die meet of een agent een taak correct uitvoert bij de eerste poging. Neem bijvoorbeeld een scenario waarin de agent een prijswaarschuwing op een product moet verifiëren, relevante afspraken in de agenda moet controleren en van beide gegevens gebruik moet maken vanuit een smartphone. Het blijkt dat zelfs OpenAI’s meest geavanceerde model, GPT-5.5, met een score van slechts 34,5% slecht presteert. Dit zijn geen triviale taken, maar alledaagse verzoeken die gebruikers aan hun assistenten stellen.

De bevindingen van Claw-Anything tonen aan dat AI in zijn huidige vorm vaak tekortschiet, zelfs wanneer het toegang heeft tot complete digitale ecosystemen van gebruikers. De scores voor proactieve assistentie, waarbij de agent zelfstandig acties onderneemt zonder specifieke verzoeken, waren schokkend laag, met 6,7% vergeleken met 25,9% voor reactieve taken. Dit roept vragen op over de effectiviteit van de meeste benchmarks die momenteel worden gebruikt.

De onderzoekers benadrukken dat bestaande benchmarks AIs beschouwen als probleemoplossers op een opgeruimd bureau, terwijl Claw-Anything hen plaatst in een echte, complexe digitale omgeving vol ruis en verwarring. De resultaten laten zien dat een AI-agent zich kan aanpassen aan dit soort uitdagingen door relevante informatie te filteren voordat het tot actie overgaat.

Bovendien is cross-service coördinatie een belangrijke uitdaging die moet worden aangepakt. De inzichten die zijn opgedaan uit de benchmark hebben geleid tot verbeteringen in de training van AI-modellen zoals Qwen3.5-27B. Door agenttrajecten met succes te verfijnen, werd de pass@1-score met 23,7% verhoogd, waardoor deze modellen zich nu kunnen meten met enkele van de gevestigde spelers in de markt.

Deze bevindingen zijn cruciaal voor investeerders en beleidsmakers die de evolutie van AI-assistenten en hun complexiteit begrijpen. Het biedt een verhelderend perspectief op waar AI momenteel staat en waar verbeteringen noodzakelijk zijn.

Vraag & Antwoord

Hoe presteren huidige AI-modellen bij echte gebruiksscenario’s?
De meeste huidige AI-modellen presteren ondermaats bij taken die gebruikers daadwerkelijk aan assistenten stellen. Bewezen met scores tot slechts 34,5% voor langetermijntaken, laten ze zien dat ze niet zijn uitgerust om complexe gebruikersbehoeften te beheren.

Wat zijn de belangrijkste bevindingen van Claw-Anything?
De benchmark toont aan dat AI-agents in staat zijn om proactief en reactief te handelen, maar dat hun prestaties aanzienlijk verschillen. Proactieve acties worden slechts met 6,7% correct uitgevoerd, wat de vragen oproept over de effectiviteit van de huidige benchmarks.

Wat betekent deze benchmark voor de toekomst van AI-assistentie?
Claw-Anything benadrukt de noodzaak voor AI-modellen om te oefenen in meer complexe, realistische omgevingen. Dit kan leiden tot substantieel betere prestaties en een evolutie van AI-assistenten die beter in staat zijn de uitdagingen van dagelijks gebruik aan te gaan.

Deel dit Artikel:

Disclaimer: de informatie op Block 9 is uitsluitend bedoeld voor algemene informatieve en educatieve doeleinden. Hoewel wij streven naar het aanbieden van actuele, correcte en relevante content, geven wij geen garanties met betrekking tot de volledigheid, juistheid of betrouwbaarheid van de verstrekte informatie. Alle inhoud op deze website, waaronder artikelen, analyses, meningen en andere publicaties, is bedoeld als algemene informatie en vormt op geen enkele wijze professioneel of juridisch advies, inclusief maar niet beperkt tot financieel, beleggings- of belastingadvies.

Block 9 geeft geen enkele garantie en doet geen enkele toezegging over mogelijke resultaten of opbrengsten die kunnen voortvloeien uit het gebruik van informatie op deze website. Niets op deze website mag worden geïnterpreteerd als een aanbeveling tot aankoop, verkoop of het aanhouden van bepaalde activa, waaronder maar niet beperkt tot cryptovaluta, tokens of andere financiële instrumenten.

De meningen en standpunten die worden geuit in bijdragen van redacteuren, externe auteurs of communityleden zijn strikt persoonlijk en vertegenwoordigen niet noodzakelijkerwijs de zienswijze of het beleid van Block 9 als platform. Block 9 aanvaardt geen enkele aansprakelijkheid voor enig verlies of schade – direct of indirect – als gevolg van het gebruik van (of het vertrouwen op) de informatie die op deze website wordt gepubliceerd.

Beleggen in cryptovaluta en andere digitale activa brengt aanzienlijke risico’s met zich mee. De waarde van dergelijke activa kan sterk fluctueren, en er bestaat een kans dat je (een deel van) je inleg verliest. Wij raden je ten zeerste aan om altijd je eigen onderzoek te doen (do your own research – DYOR) en onafhankelijk advies in te winnen van een gekwalificeerde financieel adviseur voordat je financiële beslissingen neemt. Door deze website te gebruiken, ga je akkoord met deze disclaimer en accepteer je dat Block 9 niet verantwoordelijk is voor jouw investeringskeuzes of de resultaten daarvan.

Crypto Nieuws

Europese Cryptomarkt: Ontwikkelingen, Regulaties En Beleggingsmogelijkheden

Crypto Beurzen

Kraken Betreedt Amerikaanse Markt Met Gereguleerde Perpetual Futures In Crypto Trading

Bankfocus België & Nederland

Banken Hebben Meer Flexibiliteit Nodig Om Europese Investeringsbehoeften Te Financieren

Ethereum (ETH)

Block #9

Nieuwe Benchmark Onthult Tekortkomingen In Ai-assistenten: Claw-anything Wijst De Weg Voorwaarts

Aanpak en Resultaten van Claw-Anything

Vraag & Antwoord

Cryptomarkt Dynamiek In Europa: Regelgeving, Innovatie En Macro-economische Invloeden

Data Diefstal: Cybercriminelen Misbruiken GTA 6 Hype, Waarschuwing Van NordVPN

Slimme insiders lezen mee – jij ook?

Connect met Block #9

block9news

@block9news

@block9news

Niet Te Missen:

Europese Cryptomarkt: Ontwikkelingen, Regulaties En Beleggingsmogelijkheden

Kraken Betreedt Amerikaanse Markt Met Gereguleerde Perpetual Futures In Crypto Trading

Banken Hebben Meer Flexibiliteit Nodig Om Europese Investeringsbehoeften Te Financieren

Bitmine’s Groeiende Ether-bezit: Invloed Op De Cryptomarkt En Investeringsstrategieën