Att lura AI-modeller som ChatGPT att bryta mot reglerna har blivit allt vanligare. Nu lanseras ett nytt verktyg som blockerar attackerna.
Att manipulera artificiell intelligens genom så kallad "prompt injection" har blivit ett utbrett problem. Genom att mata in specifika instruktioner kan användare få modeller som ChatGPT och Claude att ignorera sina säkerhetsspärrar och svara på vad som helst – ett fenomen som ofta kallas för "DAN" (Do Anything Now).
Nu lanseras Arc Gate, ett nytt säkerhetsverktyg som fungerar som en sköld mellan den egna applikationen och AI-jättarnas servrar. Verktyget övervakar AI-modellens beteende i realtid och kan blockera över 35 kända attackmönster innan skadan är skedd.
Istället för att bara leta efter förbjudna ord använder Arc Gate avancerad matematik och differentialgeometri. Filtret analyserar hur AI-modellen formulerar sina svar och letar efter dolda avvikelser som tyder på att den håller på att bli manipulerad, även om texten i sig ser helt normal ut.
Detta gör det möjligt att stoppa även långsamma, gradvisa attacker. En känd metod är "Crescendo", där användaren under en lång konversation försiktigt knuffar AI:n över gränsen för vad som är tillåtet. Genom att spåra stabiliteten över en hel chattsession kan systemet slå larm när en till synes oskyldig konversation byter karaktär.
För utvecklare som bygger tjänster ovanpå stora AI-modeller innebär detta en genväg till ökad säkerhet. Verktyget kräver bara att man byter ut en enda länk i koden, vilket sänker tröskeln rejält för företag som vill skydda sina plattformar mot intrång och manipulation.
Läs också:
