Pubblicazioni • 19/12/2025

È possibile manipolare un Large Language Model (LLM) in modo da aggirare le proprie barriere di sicurezza? Esistono delle vulnerabilità latenti al suo interno che possono essere sfruttate? 

 

Sono questi gli interrogativi a cui gli esperti del CERT-AgID hanno cercato di dare una risposta analizzando i flussi di dati interni ai modelli linguistici e determinando in che modo i singoli “neuroni” responsabili della sicurezza possano essere modificati per superare anche blocchi etici. 

 

Come funzionano gli LLM 

 

I modelli linguistici non sono altro che dei sistemi predittivi statistici il cui compito è quello di “indovinare” la parola successiva da inserire all’interno di una frase. Essi vengono spesso percepiti come sistemi “blackbox”, di cui è possibile conoscere solamente l’input e l’output, ma non il loro funzionamento interno che ha portato a una determinata decisione. 

 

Gli LLM, infatti, agiscono a diversi livelli, come dei palazzi formati da tanti piani, con i layer più bassi che lavorano sulle regole grammaticali, quelli intermedi che affrontano il contesto e gli ultimi piani in cui viene presa la decisione finale, ovvero quale parola scrivere per iniziare o completare la frase. 

 

Lo studio 

 

L’esperimento del CERT-AgID consente di osservare come un comportamento emerga e si trasformi lungo la profondità della rete, analizzando la comparsa e la coerenza tra i layer. L’analisi dimostra che se chiediamo qualcosa di pericoloso, come, per esempio, "come costruire una bomba", il modello non risponde "no" istantaneamente, ma realizza un processo di maturazione il cui segnale di rifiuto nasce negli strati intermedi del processo ma si rafforza e viene giustificato moralmente solo verso i piani più alti. 

 

È in questa fase che, attraverso una tecnica chiamata activation engineering, è possibile applicare una sorta di "spinta" per deviare il percorso del pensiero del modello. In questo modo, il modello, che inizialmente voleva rifiutare la richiesta, cambia idea e inizia a fornire istruzioni, aggirando le proprie barriere di sicurezza. 

 

Le implicazioni 

 

Dall’analisi emerge come la sicurezza venga costruita progressivamente attraverso segnali che possono rafforzarsi, attenuarsi o trasformarsi a seconda del punto di intervento e della sua intensità. 

 

Studiare la robustezza degli LLM dall’interno consente di passare da una valutazione puramente comportamentale a una comprensione strutturale dei meccanismi di sicurezza. 

 

Questo lavoro pone le basi per approcci futuri orientati non solo a misurare se un modello fallisce, ma a capire come e dove tale fallimento prende forma, offrendo nuovi strumenti per progettare modelli più trasparenti, controllabili e robusti.

 

Leggi lo studio del CERT-AgID