Dolda instruktioner i webbsidor och mejl kan kapa AI-agenter och lura dem att ta felaktiga beslut. Nu lanseras ett nytt skydd som ska stoppa attackerna.
AI-agenter, de smarta program som surfar, sammanfattar och utför uppgifter åt dig på nätet, blir allt vanligare. Men med stor potential följer också nya säkerhetsrisker, där en av de mest förrädiska är så kallade promptinjektioner, enligt OpenAI.
Promptinjektioner handlar om dolda instruktioner som placeras i extern information – som en webbsida, ett mejl eller en PDF – för att lura AI-modellen att utföra något användaren inte har bett om. Tidiga attacker kunde vara så enkla som att redigera en Wikipedia-artikel, men har nu utvecklats till att likna social ingenjörskonst för att vilseleda AI:n i sitt sammanhang.
Risken är särskilt stor för AI-agenter som har behörighet att utföra handlingar som att klicka på länkar, fylla i formulär eller komma åt inloggade sessioner. Detta kan leda till datastöld, obehöriga transaktioner, kontomissbruk eller att AI:n sprider falsk information, varnar Webfuse och Towards AI.
En nyutvecklad lösning, som kallas Arc Gate, syftar till att stoppa dessa attacker genom att identifiera och blockera skadliga instruktioner innan AI-modellen ens bearbetar dem. Om en webbsida exempelvis innehåller dolda instruktioner som försöker kapa AI-agenten, markerar Arc Gate källan som otillförlitlig och förhindrar att instruktionerna följs.
För att säkra AI-agenter krävs en flerskiktad försvarsstrategi, som inkluderar strikt isolering, begränsade behörigheter och mänsklig granskning av AI:ns planer, enligt experter som OpenAI och Webfuse. Även stora aktörer som Microsoft och Google arbetar intensivt med att hitta och åtgärda säkerhetsbrister, ofta med hjälp av AI-system för att upptäcka sårbarheter.
Läs också:
