IA: il delicato equilibrio tra velocità e sicurezza nel nuovo paper del CERT-AgID

Pubblicazioni • 06/30/2026

Rendere i modelli di intelligenza artificiale più rapidi nel rispondere è una priorità, ma l'ottimizzazione non deve mai compromettere l'affidabilità e il controllo dei sistemi informatici. È quanto ribadito nel nuovo studio del CERT-AgID incentrato sul Multi-Token Prediction (MTP), una tecnologia emergente progettata per velocizzare le risposte dell'IA.

L'analisi mette in luce come l'adozione di queste tecniche, se non rigorosamente controllata, possa trasformarsi da opportunità di efficienza a fattore di rischio per la sicurezza operativa e l'affidabilità dei sistemi digitali della PA.

Come funziona l'accelerazione dei modelli

I modelli di intelligenza artificiale tradizionali generano i testi in modo sequenziale, cioè elaborando una parola o un simbolo alla volta. Per superare questo limite e ridurre i tempi di attesa si utilizza il Multi-Token Prediction, spesso abbinato al cosiddetto decoding speculativo.

Per comprendere questo meccanismo si può immaginare una persona intenta a scrivere un documento affiancata da un assistente molto rapido. Mentre la persona scrive, l'assistente prova ad anticipare i concetti proponendo direttamente un blocco di tre o quattro parole successive. Se l'assistente indovina, la persona accetta il suggerimento in blocco, risparmiando tempo. Se l'assistente sbaglia, la proposta viene rifiutata e l'autore riprende a scrivere normalmente dal punto in cui si era interrotto. Nel mondo dell'intelligenza artificiale, l'assistente veloce è un modello secondario più leggero, mentre l'autore finale è il modello principale, che mantiene sempre l'ultima parola sulla correttezza del testo.

Il rischio del disallineamento interno e i riflessi sulla sicurezza

La ricerca evidenzia che il problema principale di questa tecnologia non risiede nella velocità, ma nel controllo della memoria interna del sistema. Quando il modello secondario propone delle parole, il sistema entra in uno stato temporaneo di sospensione. Se la gestione di questo stato non è perfetta, il rischio è che il sistema confonda le parole solo ipotizzate con quelle già verificate.

Questo disallineamento può provocare conseguenze critiche per la sicurezza operativa delle infrastrutture informatiche, impattando sulla stabilità del servizio e alterando, nei casi peggiori, la coerenza delle risposte fornite dall'intelligenza artificiale.

I risultati dei test

I test condotti dal CERT-AgID su architetture locali hanno dimostrato che per garantire la massima sicurezza ed efficienza è necessario che il modello assistente sia il più prevedibile e meno creativo possibile, limitandosi a proporre le continuazioni più ovvie e facili da verificare.

Inoltre, lo studio conferma che le prestazioni reali della tecnologia non possono essere valutate guardando solo la velocità media del sistema, ma richiedono un monitoraggio attento dei casi peggiori e dei picchi di rallentamento. Solo bilanciando l'ingegneria delle prestazioni con un controllo rigoroso dello stato interno del modello è possibile implementare soluzioni basate su intelligenza artificiale che siano non solo veloci, ma anche stabili, verificabili e protette da utilizzi impropri.

Per approfondire

Per maggiori dettagli è possibile consultare l’intero report. Nella sezione Sicurezza, invece, sono disponibili tutti i paper pubblicati nei mesi precedenti del CERT-AGID.