L’ultimo paper del CERT-AGID approfondisce l’uso di workflow agentici nell’analisi del malware, un ambito in cui modelli linguistici e strumenti automatici sono sempre più spesso chiamati a supportare attività di triage, reverse engineering e ricostruzione di catene multi-stage.
Lo studio mostra come questi sistemi non si limitino più a produrre testo, ma possano orchestrare strumenti, leggere artefatti complessi e sostenere sessioni iterative di analisi. Allo stesso tempo, mette in evidenza un limite strutturale: nei workflow più lunghi, la criticità principale non è solo la qualità del modello, ma la tenuta dell’intero processo operativo.
Ogni passaggio aggiunge output di tool, log, estratti di codice e riassunti intermedi, fino a saturare il contesto disponibile e compromettere la continuità dell’indagine. Per questo, il paper parte da un caso reale maturato nell’ambito delle attività del CERT-AGID, in cui una skill eseguita tramite Codex CLI con un modello di frontiera in cloud ha ricostruito in autonomia una catena multi-stage complessa, arrivando a identificare l’ultimo stadio dell’infezione.
A partire da questa esperienza, è stata avviata una campagna di test per valutare la possibilità di trasferire workflow analoghi su infrastrutture interamente locali. Le prove hanno mostrato che, nei contesti agentici dedicati alla malware analysis, il degrado operativo emerge spesso prima per limiti di infrastruttura, orchestrazione e tool-use che per carenze intrinseche del modello.
I risultati indicano che la combinazione Codex CLI e Ollama con qwen3-coder30b offre oggi un buon compromesso per analisi rapide su task singoli. Al tempo stesso, uno stack basato su un client custom e llama-server garantisce maggiore controllo sul serving GGUF e sulla stabilità del ciclo locale, mentre l’uso di un client alternativo come Cloude può modificare in modo sensibile la persistenza della chain analitica, a parità di backend.
Nel complesso, il paper evidenzia che la vera metrica nei workflow agentici non è il modello isolato, ma l’intero sistema di analisi. Per renderli sostenibili servono workflow più atomici, telemetria affidabile e un’orchestrazione rigorosa dei tool, così da mantenere osservabilità, continuità operativa e controllo del processo investigativo nel tempo.