4 juni 2026
bitcoin
Bitcoin (BTC) 54,267.72 5.73%
ethereum
Ethereum (ETH) 1,537.31 4.32%
xrp
XRP (XRP) 1.02 2.78%
bnb
BNB (BNB) 528.02 6.12%
solana
Solana (SOL) 60.74 5.67%
dogecoin
Dogecoin (DOGE) 0.077829 2.98%
cardano
Cardano (ADA) 0.169643 7.79%
chainlink
Chainlink (LINK) 7.06 2.34%
bitcoin-cash
Bitcoin Cash (BCH) 207.03 10.85%
litecoin
Litecoin (LTC) 40.24 1.13%
polkadot
Polkadot (DOT) 0.939611 0.59%
dai
Dai (DAI) 0.860245 0.01%
pepe
Pepe (PEPE) 0.000003 1.73%
ethereum-classic
Ethereum Classic (ETC) 6.59 0.30%
monero
Monero (XMR) 313.06 8.77%
openai onthult ernstige tekortkomingen in swe bench verified schudt ai industrie op

OpenAI Onthult Ernstige Tekortkomingen In Swe-bench Verified, Schudt Ai-industrie Op

Leestijd: 2 minuten

Het nieuws dat de SWE-bench Verified, de benchmark die lange tijd als de maatstaf voor AI-programmeerprestaties diende, zijn relevantie heeft verloren, is als een schokgolf door de AI-gemeenschap gegaan. OpenAI heeft aangekondigd dat deze benchmark ernstig verontreinigd is door gebrekkige teststructuren en invloed uit eerdere trainingsdata, wat de waarde ervan voor het beoordelen van de programmeercapaciteiten van AI-modellen ondermijnt. Dit roept belangrijke vragen op over de betrouwbaarheid van dergelijke evaluaties en wat dit betekent voor investeerders en analisten die de voortgang in de AI-ruimte volgen.

De SWE-bench Verified werd in augustus 2024 ontwikkeld als verbeterde versie van de oorspronkelijke benchmark uit 2023. Het doel was om een schoner beoordelingssysteem op te zetten, waarbij 93 software-engineers werd ingeschakeld om onmogelijke of slecht ontworpen taken uit te sluiten. Waar deze aanpak aanvankelijk goed werkte en vele AI-bedrijven gebruik maakten van de scores als bewijs van vooruitgang, heeft OpenAI nu ontdekt dat de benchmark zelf onbetrouwbaar is. Bij het controleren van 138 taken, die GPT-5.2 niet kon oplossen, kwam men tot de schokkende conclusie dat maar liefst 59,4% van deze taken fundamenteel gebroken is.

De verontreiniging van de benchmark is problematisch omdat de SWE-bench zijn problemen haalt uit open-source repositories die door de meeste AI-ontwikkelaars worden gebruikt. Dit maakte het voor bekende AI-modellen mogelijk om, enkel met een taak-ID en een korte aanwijzing, de oorspronkelijke oplossingen te reproduceren. In sommige gevallen legden logboeken van GPT-5.2 zelfs op basis van eerdere informatie verbanden die alleen in de release-notities van Django te vinden waren.

OpenAI heeft nu een nieuwe benchmark, SWE-bench Pro, aanbevolen, die gevarieerdere codebases en licenties hanteert om de blootstelling aan trainingsdata te verminderen. Het verschil in prestaties is opmerkelijk: waar modellen eerder gemiddeld 70% haalden op de oude benchmark, scoren ze nu slechts 23% op deze nieuwe versie. Dit betekent dat de concurrentiepositie van OpenAI op de huidige leaderboard van de SWE-bench Verified sterk is verzwakt, wat ook strategische implicaties heeft in hun branding en marktpositionering.

Met de introductie van SWE-bench Pro is er een kans voor een reset, maar het is ook cruciaal om te erkennen dat benchmarks snel verouderen naarmate modellen zich ontwikkelen. Het probleem van verouderde en onbetrouwbare benchmarks is niet uniek voor codering, maar het feit dat OpenAI juist deze benchmark zo sterk promootte voordat ze de tekortkomingen openbaarden, maakt dit geval opmerkelijk. De verschuiving naar nieuwe evaluaties zoals de GPDVal, waarbij deskundigen originele taken schrijven, kan een weg bieden naar betrouwbaardere en meer geaccepteerde standaardisering in de sector.

De ontwikkelingen binnen de SWE-bench en de daaropvolgende aanpassingen dragen bij aan het grotere verhaal van ethiek en transparantie binnen de AI-industrie. Investeren in technologieën en benchmarks die echt naar resultaten streven, is wellicht de enige manier waarop we garant kunnen staan voor een professionele en veilige AI-toekomst.

Vraag & Antwoord

Wat zijn de belangrijkste redenen voor de afkeuring van SWE-bench Verified?
De SWE-bench Verified blijkt te zijn besmet met gebrekkige teststructuren en gestructureerde data-exposure, wat resulteert in onbetrouwbare evaluaties van AI-codingcapaciteiten en een groot aantal gebroken taken.

Hoe heeft OpenAI de betrouwbaarheid van de benchmarks geverifieerd?
OpenAI heeft 138 taken beoordeeld die GPT-5.2 moeilijkheden opleverden en kwam tot de conclusie dat meer dan de helft van die taken fundamentele problemen vertoonde, wat de zekerheid van de benchmark ondermijnt.

Wat betekent de overstap naar SWE-bench Pro voor de competitieve landscape?
De overstap naar SWE-bench Pro kan de concurrentiepositie van OpenAI resetten, maar het roept ook vragen op over de duurzaamheid van benchmarks in een snel evoluerende AI-markt.

Deel dit Artikel:
Disclaimer: de informatie op Block 9 is uitsluitend bedoeld voor algemene informatieve en educatieve doeleinden. Hoewel wij streven naar het aanbieden van actuele, correcte en relevante content, geven wij geen garanties met betrekking tot de volledigheid, juistheid of betrouwbaarheid van de verstrekte informatie. Alle inhoud op deze website, waaronder artikelen, analyses, meningen en andere publicaties, is bedoeld als algemene informatie en vormt op geen enkele wijze professioneel of juridisch advies, inclusief maar niet beperkt tot financieel, beleggings- of belastingadvies.

Block 9 geeft geen enkele garantie en doet geen enkele toezegging over mogelijke resultaten of opbrengsten die kunnen voortvloeien uit het gebruik van informatie op deze website. Niets op deze website mag worden geïnterpreteerd als een aanbeveling tot aankoop, verkoop of het aanhouden van bepaalde activa, waaronder maar niet beperkt tot cryptovaluta, tokens of andere financiële instrumenten.

De meningen en standpunten die worden geuit in bijdragen van redacteuren, externe auteurs of communityleden zijn strikt persoonlijk en vertegenwoordigen niet noodzakelijkerwijs de zienswijze of het beleid van Block 9 als platform. Block 9 aanvaardt geen enkele aansprakelijkheid voor enig verlies of schade – direct of indirect – als gevolg van het gebruik van (of het vertrouwen op) de informatie die op deze website wordt gepubliceerd.

Beleggen in cryptovaluta en andere digitale activa brengt aanzienlijke risico’s met zich mee. De waarde van dergelijke activa kan sterk fluctueren, en er bestaat een kans dat je (een deel van) je inleg verliest. Wij raden je ten zeerste aan om altijd je eigen onderzoek te doen (do your own research – DYOR) en onafhankelijk advies in te winnen van een gekwalificeerde financieel adviseur voordat je financiële beslissingen neemt. Door deze website te gebruiken, ga je akkoord met deze disclaimer en accepteer je dat Block 9 niet verantwoordelijk is voor jouw investeringskeuzes of de resultaten daarvan.
Slimme insiders lezen mee – jij ook?
Mis geen update, schrijf je in voor onze nieuwsbrief.
bitcoin
bitcoin

Bitcoin (BTC)

Prijs
54,267.72
ethereum
ethereum

Ethereum (ETH)

Prijs
1,537.31
xrp
xrp

XRP (XRP)

Prijs
1.02
Connect met Block #9
block9news
1K+ Volgers
🤳 Word Fan
@block9news
1K+ Volgers
📸 Volg Ons
@block9news
1K+ Volgers
📸 Volg Ons

Niet Te Missen:

Binance Breekt Barrières: Amerikaanse Aandelen En ETF’s Verhandelen Nu Mogelijk
Eisen Van Lords: Bank Of England Moet Stabiliteit Van Stablecoins Heroverwegen
Bitcoin ETF’s Noteren Zevendaagse Instroomrecord: Blackrock En Morgan Stanley Domineren
Groeiende Spanningen En Falende Vredesbesprekingen Schudden Crypto-markt: Bitcoin En Ether Dalen
Blijf slim geïnformeerd
De toekomst wacht niet – wees altijd een stap voor en ontvang het laatste nieuws, exclusieve updates en belangrijke inzichten direct in je inbox. Schrijf je in voor onze nieuwsbrief en blijf vooroplopen.
Copyrights © 2026
Redwind BV