Op het snijvlak van kunstmatige intelligentie (AI) en digitale assistentie heeft het team van Huawei, in samenwerking met enkele gerenommeerde onderzoeksinstellingen, Claw-Anything ontwikkeld. Deze benchmark is ontworpen om AI-agents te evalueren op hun geschiktheid voor persoonlijke assistentietaken. De bevindingen zijn onthullend: de resultaten suggereren dat de huidige AI-modellen, inclusief de nieuwste ontwikkelingen van OpenAI, achterblijven bij de verwachtingen.
Traditioneel hebben AI-assistenten de claim dat ze, door toegang tot uw digitale leven, alle taken kunnen afhandelen — van e-mails tot agendabeheer. Maar Claw-Anything stelt deze veronderstellingen ter discussie. De benchmark meet de prestaties van AI-agents over drie belangrijke dimensies: langdurige gebeurtenissen die meer dan drie maanden gesimuleerde gebruikersactiviteit omvatten, interafhankelijke back-enddiensten die gemiddeld 10,1 per taak vereisen, en interactie met meerdere apparaten, waaronder CLI (Command Line Interface) Linux-omgevingen en GUI (Graphical User Interface) Android-omgevingen.
Met een gemiddelde contextwindow van 191.700 woorden per taak, overschrijdt Claw-Anything met gemak de beperkingen van bestaande benchmarks, die doorgaans slechts variëren van 1.700 tot 12.000 woorden. Dit benadrukt niet alleen de complexiteit van de dagelijkse behoeften van gebruikers, maar toont ook aan dat huidige AI-modellen meestal niet zijn toegerust voor de echte wereld.
Bij de evaluatie van AI-agents wordt de ‘pass@1′-maat gebruikt—een metric die meet of een agent een taak correct uitvoert bij de eerste poging. Neem bijvoorbeeld een scenario waarin de agent een prijswaarschuwing op een product moet verifiëren, relevante afspraken in de agenda moet controleren en van beide gegevens gebruik moet maken vanuit een smartphone. Het blijkt dat zelfs OpenAI’s meest geavanceerde model, GPT-5.5, met een score van slechts 34,5% slecht presteert. Dit zijn geen triviale taken, maar alledaagse verzoeken die gebruikers aan hun assistenten stellen.
De bevindingen van Claw-Anything tonen aan dat AI in zijn huidige vorm vaak tekortschiet, zelfs wanneer het toegang heeft tot complete digitale ecosystemen van gebruikers. De scores voor proactieve assistentie, waarbij de agent zelfstandig acties onderneemt zonder specifieke verzoeken, waren schokkend laag, met 6,7% vergeleken met 25,9% voor reactieve taken. Dit roept vragen op over de effectiviteit van de meeste benchmarks die momenteel worden gebruikt.
De onderzoekers benadrukken dat bestaande benchmarks AIs beschouwen als probleemoplossers op een opgeruimd bureau, terwijl Claw-Anything hen plaatst in een echte, complexe digitale omgeving vol ruis en verwarring. De resultaten laten zien dat een AI-agent zich kan aanpassen aan dit soort uitdagingen door relevante informatie te filteren voordat het tot actie overgaat.
Bovendien is cross-service coördinatie een belangrijke uitdaging die moet worden aangepakt. De inzichten die zijn opgedaan uit de benchmark hebben geleid tot verbeteringen in de training van AI-modellen zoals Qwen3.5-27B. Door agenttrajecten met succes te verfijnen, werd de pass@1-score met 23,7% verhoogd, waardoor deze modellen zich nu kunnen meten met enkele van de gevestigde spelers in de markt.
Deze bevindingen zijn cruciaal voor investeerders en beleidsmakers die de evolutie van AI-assistenten en hun complexiteit begrijpen. Het biedt een verhelderend perspectief op waar AI momenteel staat en waar verbeteringen noodzakelijk zijn.
Hoe presteren huidige AI-modellen bij echte gebruiksscenario’s?
De meeste huidige AI-modellen presteren ondermaats bij taken die gebruikers daadwerkelijk aan assistenten stellen. Bewezen met scores tot slechts 34,5% voor langetermijntaken, laten ze zien dat ze niet zijn uitgerust om complexe gebruikersbehoeften te beheren.
Wat zijn de belangrijkste bevindingen van Claw-Anything?
De benchmark toont aan dat AI-agents in staat zijn om proactief en reactief te handelen, maar dat hun prestaties aanzienlijk verschillen. Proactieve acties worden slechts met 6,7% correct uitgevoerd, wat de vragen oproept over de effectiviteit van de huidige benchmarks.
Wat betekent deze benchmark voor de toekomst van AI-assistentie?
Claw-Anything benadrukt de noodzaak voor AI-modellen om te oefenen in meer complexe, realistische omgevingen. Dit kan leiden tot substantieel betere prestaties en een evolutie van AI-assistenten die beter in staat zijn de uitdagingen van dagelijks gebruik aan te gaan.
