OpenAI lanserade GPT-5.5 som världens bästa AI för kodning. Men i ett nytt oberoende test där fusk är omöjligt rasar modellen totalt.
OpenAI släppte nyligen GPT-5.5. Företaget skröt om att det är deras mest kapabla modell någonsin, särskilt för så kallad "agentic coding" – där AI:n själv kan planera, koda och rätta sina misstag utan mänsklig inblandning.
Enligt företagets egna tester slår den konkurrenter som Googles Gemini och Anthropics Claude på fingrarna. Modellen krossade OpenAI:s egna mätverktyg och sades klara av utvecklaruppgifter som vanligtvis tar flera timmar för en människa.
Men verkligheten verkar se annorlunda ut när oberoende granskare sätter AI:n på prov.
I det oberoende testet LiveBench kraschlandar nämligen den hajpade modellen. LiveBench är designat för att vara helt fritt från "kontaminering", vilket innebär att frågorna ständigt uppdateras så att AI-modellerna inte ska ha kunnat tjuvkika på facit i förväg under sin träningsperiod.
Resultatet? GPT-5.5 landar på poängen 56,67 och hamnar därmed på en blygsam elfteplats. Modellen får inte bara stryk av konkurrenter som Gemini 3.1 Pro och Claude 4.6 – den besegras dessutom stort av sin egen äldre föregångare, GPT-5.4, som klockar in på hela 70 poäng.
Att GPT-5.5 briljerar i OpenAI:s interna tester men underpresterar i LiveBench väcker nu debatt i techvärlden. Många ifrågasätter om modellen faktiskt blivit smartare på att resonera, eller om den bara blivit bättre på att lösa just de prov som OpenAI själva har designat.
OpenAI har dubblat priset för att använda GPT-5.5 jämfört med den tidigare versionen. För användare och företag som bygger AI-verktyg återstår nu frågan om uppgraderingen faktiskt är värd pengarna.
Läs också:
