AI-modeller har länge jämförts genom benchmarktester. Men allt fler utvecklare och forskare börjar ifrågasätta om de etablerade testerna verkligen mäter verklig programmeringsförmåga – eller bara hur bra modellerna är på att känna igen mönster från gamla kodexempel.
Nu hävdar startupbolaget Datacurve AI att de hittat problemet.
Deras nya benchmark, DeepSWE, beskrivs som ett betydligt hårdare och mer verklighetsnära test för AI-kodning. Resultaten har redan väckt uppmärksamhet i AI-världen – inte minst eftersom GPT-5.5 enligt testet placerar sig i en helt egen liga. (Venturebeat)
Kritiken mot dagens benchmarksystem
Under de senaste två åren har SWE-Bench blivit något av industristandard för att mäta hur bra AI-modeller är på programmering. Problemet, enligt DeepSWE-teamet, är att många modeller verkar ha lärt sig benchmarken snarare än själva problemlösningen.
Datacurve menar att dagens tester kan ge missvisande resultat i upp till en tredjedel av fallen. (Computer Sweden)
DeepSWE försöker istället simulera mer realistiska utvecklingsmiljöer:
– större kodbaser
– fler beroenden
– svårare felsökning
– mindre förutsägbara uppgifter
Det är först där skillnaderna mellan modellerna börjar bli tydliga.
Och väldigt tydliga.
GPT-5.5 tar ledningen
I DeepSWE:s resultat får GPT-5.5 omkring 70 procents träffsäkerhet – långt före närmaste konkurrenter. GPT-5.4 hamnar runt 56 procent medan Claude Opus 4.7 ligger strax bakom. Flera mindre modeller faller dramatiskt när benchmarken blir mer realistisk. (Venturebeat)
Det mest intressanta är kanske inte att GPT-5.5 vinner.
Det är avståndet.
Under flera år har AI-racet handlat om små procentuella förbättringar där modellerna legat relativt nära varandra. DeepSWE visar istället ett scenario där vissa modeller verkar fungera bra i laboratoriemiljö – men betydligt sämre i verklig mjukvaruutveckling.
Claude Haiku 4.5 är ett exempel som enligt DeepSWE presterar hyggligt på vissa äldre benchmarktester men kollapsar helt i det nya testet. (Venturebeat)
Ett större problem för AI-industrin
Benchmarkkriget handlar egentligen om något större än bara siffror.
Hela AI-industrin bygger idag stora delar av sin marknadsföring på benchmarkresultat. När nya modeller lanseras är det ofta stapeldiagram, procent och ledartabeller som säljer produkten.
Men om testerna inte längre speglar verkligheten uppstår ett problem:
modeller kan optimeras för att vinna benchmarktester snarare än för att faktiskt hjälpa utvecklare.
Det här är inte första gången kritiken kommer. Även utvecklare och analytiker har tidigare ifrågasatt hur vissa AI-bolag presenterar sina kodresultat och om benchmarkmiljöerna verkligen motsvarar riktig programmering. (WIRED)
Open source pressar jättarna
Samtidigt sker något annat i bakgrunden.
Open source-modeller blir snabbt bättre.
Projekt som DeepSWE-Preview och DeepSeek-Coder visar att öppna modeller nu börjar närma sig nivåer som tidigare varit reserverade för OpenAI och Anthropic. (together.ai)
Det betyder inte att open source leder ännu.
Men det betyder att försprånget krymper.
Och det gör AI-racet betydligt farligare för de stora aktörerna.
Programmerar AI verkligen bättre nu?
Det enkla svaret är:
ja – men inte alltid på det sätt många tror.
Moderna modeller är idag extremt bra på:
– boilerplate-kod
– felsökning
– dokumentation
– refaktorering
– frontend-produktion
– testskrivning
Men komplex systemdesign, stora arkitekturbeslut och långsiktig kodkvalitet är fortfarande betydligt svårare områden.
Det är också därför nya benchmarktester som DeepSWE får så stor uppmärksamhet. De försöker mäta just den typen av verkliga problem där AI fortfarande har svagheter.
En ny fas i AI-racet
DeepSWE kan visa sig bli början på en ny era för AI-utvärdering.
De gamla benchmarken belönade ofta snabbhet och mönsterigenkänning.
De nya försöker mäta något betydligt svårare:
om modeller faktiskt kan fungera som riktiga mjukvaruingenjörer.
Och just nu verkar GPT-5.5 ligga längst fram i det racet.
Men historien inom AI har visat en sak gång på gång:
Ledningen varar sällan länge.