Atacuri de deturnare a agenților
Cercetătorii în domeniul securității cibernetice au descoperit o nouă tehnică de atac cunoscută sub numele de Agentjacking, o metodă capabilă să manipuleze asistenții de codare ai inteligenței artificiale pentru a executa cod controlat de atacatori pe sistemele dezvoltatorilor.
Atacul se bazează pe un raport de eroare fals generat prin Sentry, platforma open-source de urmărire a erorilor și monitorizare a performanței, utilizată pe scară largă. Potrivit cercetătorilor, vulnerabilitatea provine dintr-o slăbiciune arhitecturală fundamentală care implică mecanismul de ingerare a evenimentelor din Sentry și integrarea sa cu sistemele de inteligență artificială prin intermediul Protocolului de Context Model (MCP).
Deoarece Sentry acceptă evenimente arbitrare de la oricine posedă un nume de sursă de date (DSN) valid, atacatorii pot injecta conținut rău intenționat în rapoartele de eroare. Când aceste rapoarte sunt ulterior recuperate de asistenți de codare bazați pe inteligență artificială, cum ar fi Claude Code sau Cursor, prin intermediul serverului Sentry MCP, conținutul injectat poate fi interpretat ca îndrumare legitimă de depanare.
Cuprins
Defectul arhitectural din spatele atacului
În centrul problemei de încredere creată de serviciile externe conectate la MCP se află serverul Sentry MCP, care returnează datele evenimentelor către agenții AI ca ieșire de încredere, chiar și atunci când datele provin din surse neverificate.
Prin urmare, agenții de codare bazați pe inteligență artificială nu pot determina în mod fiabil dacă un eveniment de eroare a fost generat de o eroare reală a aplicației sau injectat deliberat de un actor amenințător. Această incapacitate de a distinge conținutul de încredere de inputul rău intenționat creează o cale către executarea arbitrară de cod ori de câte ori agentul procesează și urmează instrucțiunile furnizate.
O compromitere reușită poate expune informații extrem de sensibile, inclusiv variabile de mediu, acreditări Git, adrese URL ale depozitelor private și date de identitate ale dezvoltatorului. În special, atacul nu necesită campanii de phishing, implementare de programe malware sau compromiterea prealabilă a infrastructurii țintă.
Cum funcționează lanțul de atac al deturnării de agenți
Atacul se desfășoară printr-o serie de etape atent orchestrate:
- Un actor de amenințare identifică Sentry DSN-ul unei organizații țintă, o acreditare publică doar pentru scriere, încorporată de obicei în site-urile web.
- Folosind DSN-ul expus, un eveniment de eroare rău intenționat este trimis către endpoint-ul de ingestie Sentry printr-o solicitare POST.
- Evenimentul injectat conține conținut markdown special creat, încorporat în câmpurile mesajelor și în numele cheilor de context.
- Când serverul Sentry MCP preia evenimentul, conținutul rău intenționat este redat ca informații structurate care seamănă vizual cu instrucțiunile legitime generate de Sentry.
- Ulterior, un dezvoltator instruiește un asistent de codare cu inteligență artificială să investigheze sau să rezolve problemele nerezolvate ale lui Sentry.
- Agentul AI interoghează Sentry prin MCP și primește evenimentul controlat de atacator.
- Instrucțiunile rău intenționate sunt tratate ca pași de remediere de încredere, ceea ce determină agentul AI să execute cod furnizat de atacator cu privilegiile dezvoltatorului.
De ce este atacul atât de eficient
Unul dintre cele mai îngrijorătoare aspecte ale Agentjacking-ului este faptul că atacatorii nu interacționează niciodată direct cu infrastructura victimei. În schimb, instrucțiunile rău intenționate sunt ascunse în ceea ce pare a fi un raport de eroare normal.
Când dezvoltatorii solicită asistență de la agenții lor de codare AI, mesajul de eroare manipulat este interpretat ca o recomandare legitimă de rezolvare. Agentul AI execută apoi instrucțiunile pe mașina dezvoltatorului folosind permisiunile proprii ale acestuia.
Agentjacking-ul este deosebit de periculos deoarece vizează relația de încredere dintre dezvoltatori și asistenții AI. Tehnica de injectare a markdown-urilor este concepută atât de convingător încât agentul AI nu poate diferenția conținutul rău intenționat de îndrumările autentice generate de Sentry.
Expunere pe scară largă și răspunsul furnizorilor
Cercetătorii au identificat, se pare, cel puțin 2.388 de organizații cu DSN-uri Sentry valide și injectabile, subliniind amploarea potențială a problemei.
Sentry a recunoscut descoperirile, dar se pare că a concluzionat că o soluție tehnică completă nu este fezabilă. În schimb, compania a implementat un mecanism global de filtrare a conținutului menit să blocheze un anumit model de sarcină utilă cunoscut, asociat cu atacul.
Agenții AI devin noua suprafață de atac
Apariția Agentjacking-ului demonstrează cum asistenții de codare bazați pe inteligență artificială devin rapid o nouă și atractivă suprafață de atac. În loc să vizeze controalele de securitate tradiționale, adversarii pot exploata fluxurile de date de încredere pe care organizațiile le expun în mod deschis.
Atacul este capabil să ocolească multe tehnologii de securitate convenționale, inclusiv soluții de detectare și răspuns la punctele finale (EDR), firewall-uri pentru aplicații web (WAF), sisteme de gestionare a identității și accesului (IAM), VPN-uri, protecții Cloudflare și firewall-uri tradiționale. Deoarece fiecare acțiune efectuată în timpul lanțului de atac pare autorizată și legitimă, este posibil să nu existe nicio activitate rău intenționată evidentă pe care instrumentele de securitate să o detecteze.
Pe măsură ce organizațiile accelerează adoptarea dezvoltării de software asistată de inteligență artificială, Agentjacking servește ca o reamintire puternică a faptului că încrederea acordată agenților de inteligență artificială poate deveni ea însăși o vulnerabilitate de securitate atunci când sursele de date externe sunt tratate ca fiind inerent de încredere.