OpenAI Onthult Grootste Tekortkomingen in SWE-Bench

OpenAI Onthult Ernstige Tekortkomingen In Swe-bench Verified, Schudt Ai-industrie Op

25 februari 2026 om 15:04

Leestijd: 2 minuten

Het nieuws dat de SWE-bench Verified, de benchmark die lange tijd als de maatstaf voor AI-programmeerprestaties diende, zijn relevantie heeft verloren, is als een schokgolf door de AI-gemeenschap gegaan. OpenAI heeft aangekondigd dat deze benchmark ernstig verontreinigd is door gebrekkige teststructuren en invloed uit eerdere trainingsdata, wat de waarde ervan voor het beoordelen van de programmeercapaciteiten van AI-modellen ondermijnt. Dit roept belangrijke vragen op over de betrouwbaarheid van dergelijke evaluaties en wat dit betekent voor investeerders en analisten die de voortgang in de AI-ruimte volgen.

De SWE-bench Verified werd in augustus 2024 ontwikkeld als verbeterde versie van de oorspronkelijke benchmark uit 2023. Het doel was om een schoner beoordelingssysteem op te zetten, waarbij 93 software-engineers werd ingeschakeld om onmogelijke of slecht ontworpen taken uit te sluiten. Waar deze aanpak aanvankelijk goed werkte en vele AI-bedrijven gebruik maakten van de scores als bewijs van vooruitgang, heeft OpenAI nu ontdekt dat de benchmark zelf onbetrouwbaar is. Bij het controleren van 138 taken, die GPT-5.2 niet kon oplossen, kwam men tot de schokkende conclusie dat maar liefst 59,4% van deze taken fundamenteel gebroken is.

De verontreiniging van de benchmark is problematisch omdat de SWE-bench zijn problemen haalt uit open-source repositories die door de meeste AI-ontwikkelaars worden gebruikt. Dit maakte het voor bekende AI-modellen mogelijk om, enkel met een taak-ID en een korte aanwijzing, de oorspronkelijke oplossingen te reproduceren. In sommige gevallen legden logboeken van GPT-5.2 zelfs op basis van eerdere informatie verbanden die alleen in de release-notities van Django te vinden waren.

OpenAI heeft nu een nieuwe benchmark, SWE-bench Pro, aanbevolen, die gevarieerdere codebases en licenties hanteert om de blootstelling aan trainingsdata te verminderen. Het verschil in prestaties is opmerkelijk: waar modellen eerder gemiddeld 70% haalden op de oude benchmark, scoren ze nu slechts 23% op deze nieuwe versie. Dit betekent dat de concurrentiepositie van OpenAI op de huidige leaderboard van de SWE-bench Verified sterk is verzwakt, wat ook strategische implicaties heeft in hun branding en marktpositionering.

Met de introductie van SWE-bench Pro is er een kans voor een reset, maar het is ook cruciaal om te erkennen dat benchmarks snel verouderen naarmate modellen zich ontwikkelen. Het probleem van verouderde en onbetrouwbare benchmarks is niet uniek voor codering, maar het feit dat OpenAI juist deze benchmark zo sterk promootte voordat ze de tekortkomingen openbaarden, maakt dit geval opmerkelijk. De verschuiving naar nieuwe evaluaties zoals de GPDVal, waarbij deskundigen originele taken schrijven, kan een weg bieden naar betrouwbaardere en meer geaccepteerde standaardisering in de sector.

De ontwikkelingen binnen de SWE-bench en de daaropvolgende aanpassingen dragen bij aan het grotere verhaal van ethiek en transparantie binnen de AI-industrie. Investeren in technologieën en benchmarks die echt naar resultaten streven, is wellicht de enige manier waarop we garant kunnen staan voor een professionele en veilige AI-toekomst.

Vraag & Antwoord

Wat zijn de belangrijkste redenen voor de afkeuring van SWE-bench Verified?
De SWE-bench Verified blijkt te zijn besmet met gebrekkige teststructuren en gestructureerde data-exposure, wat resulteert in onbetrouwbare evaluaties van AI-codingcapaciteiten en een groot aantal gebroken taken.

Hoe heeft OpenAI de betrouwbaarheid van de benchmarks geverifieerd?
OpenAI heeft 138 taken beoordeeld die GPT-5.2 moeilijkheden opleverden en kwam tot de conclusie dat meer dan de helft van die taken fundamentele problemen vertoonde, wat de zekerheid van de benchmark ondermijnt.

Wat betekent de overstap naar SWE-bench Pro voor de competitieve landscape?
De overstap naar SWE-bench Pro kan de concurrentiepositie van OpenAI resetten, maar het roept ook vragen op over de duurzaamheid van benchmarks in een snel evoluerende AI-markt.

Deel dit Artikel:

Disclaimer: de informatie op Block 9 is uitsluitend bedoeld voor algemene informatieve en educatieve doeleinden. Hoewel wij streven naar het aanbieden van actuele, correcte en relevante content, geven wij geen garanties met betrekking tot de volledigheid, juistheid of betrouwbaarheid van de verstrekte informatie. Alle inhoud op deze website, waaronder artikelen, analyses, meningen en andere publicaties, is bedoeld als algemene informatie en vormt op geen enkele wijze professioneel of juridisch advies, inclusief maar niet beperkt tot financieel, beleggings- of belastingadvies.

Block 9 geeft geen enkele garantie en doet geen enkele toezegging over mogelijke resultaten of opbrengsten die kunnen voortvloeien uit het gebruik van informatie op deze website. Niets op deze website mag worden geïnterpreteerd als een aanbeveling tot aankoop, verkoop of het aanhouden van bepaalde activa, waaronder maar niet beperkt tot cryptovaluta, tokens of andere financiële instrumenten.

De meningen en standpunten die worden geuit in bijdragen van redacteuren, externe auteurs of communityleden zijn strikt persoonlijk en vertegenwoordigen niet noodzakelijkerwijs de zienswijze of het beleid van Block 9 als platform. Block 9 aanvaardt geen enkele aansprakelijkheid voor enig verlies of schade – direct of indirect – als gevolg van het gebruik van (of het vertrouwen op) de informatie die op deze website wordt gepubliceerd.

Beleggen in cryptovaluta en andere digitale activa brengt aanzienlijke risico’s met zich mee. De waarde van dergelijke activa kan sterk fluctueren, en er bestaat een kans dat je (een deel van) je inleg verliest. Wij raden je ten zeerste aan om altijd je eigen onderzoek te doen (do your own research – DYOR) en onafhankelijk advies in te winnen van een gekwalificeerde financieel adviseur voordat je financiële beslissingen neemt. Door deze website te gebruiken, ga je akkoord met deze disclaimer en accepteer je dat Block 9 niet verantwoordelijk is voor jouw investeringskeuzes of de resultaten daarvan.

Crypto Nieuws

Navigeren Door De Evolutie: De Toekomst Van Crypto-regulering In Europa

Block #9

Starters Trekken Zich Terug: Koopbereidheid Daalt Ondanks Recordaanbod Woningen

Crypto Nieuws

Poolin Technology Vraagt Chapter 11 Bescherming Aan: Een Blik Op De Nasleep Van Mijnbouwactiviteiten En Iou’s

Crypto Opslag

Block #9

OpenAI Onthult Ernstige Tekortkomingen In Swe-bench Verified, Schudt Ai-industrie Op

Vraag & Antwoord

Binance Beschuldigt Wall Street Journal: Vraagtekens Bij Transparantie In Cryptosector

Ai-gedreven Meme Coin Pippin Ziet Explosieve Groei: Speculatie Of Duurzame Trend?

Slimme insiders lezen mee – jij ook?

Connect met Block #9

block9news

@block9news

@block9news

Niet Te Missen:

Navigeren Door De Evolutie: De Toekomst Van Crypto-regulering In Europa

Starters Trekken Zich Terug: Koopbereidheid Daalt Ondanks Recordaanbod Woningen

Poolin Technology Vraagt Chapter 11 Bescherming Aan: Een Blik Op De Nasleep Van Mijnbouwactiviteiten En Iou’s

Samsung Wallet Voegt Ondersteuning Voor Stablecoins Toe: Een Nieuwe Stap Voor Crypto-gebruik In Mainstream Tech