Un innovativo studio condotto da ricercatori italiani ha rivelato una sorprendente e diffusa vulnerabilità nei sistemi di sicurezza dell’intelligenza artificiale: la poesia può aggirare efficacemente i filtri progettati per bloccare contenuti dannosi. La ricerca, firmata da esperti di DEXAI-Icaro Lab, dell’Università La Sapienza di Roma e della Scuola Superiore Sant’Anna di Pisa, ha rapidamente attirato l’attenzione internazionale per le sue profonde implicazioni sulla robustezza e l’affidabilità delle attuali architetture di IA.
L’esperimento si è basato su un’idea tanto semplice quanto incisiva e spiazzante. Ovvero trasformare richieste potenzialmente pericolose o istruzioni per attività illecite in versi poetici. I risultati hanno mostrato che i modelli di intelligenza artificiale, normalmente addestrati con rigidi meccanismi di sicurezza per riconoscere e rifiutare la generazione di contenuti dannosi o la fornitura di informazioni sensibili, si sono dimostrati sorprendentemente permeabili a questa tecnica. Quando la domanda veniva mascherata da metafore, rime e immagini simboliche, in oltre la metà dei casi, con una media del 62% di successo, i sistemi di IA hanno fornito risposte senza attivare i loro meccanismi di blocco. È come se la forma poetica avesse aperto una porta laterale inaspettata, un passaggio che i complessi sistemi di sicurezza non erano stati progettati per intercettare o riconoscere.
Dott. Chat GPT
Il giardino di Albert 24.01.2026, 18:00
Contenuto audio
I ricercatori hanno testato un campione ampio e rappresentativo di venticinque modelli linguistici avanzati, coprendo un vasto spettro di sviluppatori che include giganti tecnologici come Google (con il suo Gemini 2.5 Pro che ha fornito risposte dannose nel 100% dei casi), OpenAI (dove GPT-5 nano si è dimostrato più resistente), Anthropic, Meta, e altri attori chiave come Deepseek, Qwen, Mistral AI, xAI e Moonshot AI. La vulnerabilità si è manifestata in modo trasversale e sistemico: nessuna architettura o approccio di addestramento si è dimostrato completamente immune a questa tecnica, che i ricercatori hanno definito «poesia avversaria» (adversarial poetry).
La poesia, con la sua intrinseca ambiguità, la capacità di veicolare messaggi in modo indiretto e di giocare con le sfumature del significato, ha messo in crisi algoritmi abituati a elaborare un linguaggio diretto, lineare e privo di sottigliezze. Questo suggerisce che gli attuali filtri di sicurezza sono principalmente calibrati per riconoscere richieste esplicite e letterali, fallendo quando il contenuto viene mascherato da strutture linguistiche più complesse e figurative. La vulnerabilità non è un errore da correggere con una semplice patch, ma la manifestazione coerente di un meccanismo che non “comprende” concetti nel senso umano, bensì collega token e calcola proprietà numeriche in uno spazio probabilistico.
Gli autori dello studio hanno sottolineato che questa vulnerabilità non è un fenomeno isolato, ma sembra essere profondamente radicata nel modo in cui i modelli di linguaggio di grandi dimensioni interpretano e processano il linguaggio. Essi avvertono che la «poesia avversaria» potrebbe essere sfruttata per aggirare i filtri in contesti sensibili e con implicazioni potenzialmente gravi, che vanno dalla sicurezza cibernetica al bioterrorismo, dalla manipolazione psicologica alla diffusione di informazioni non veritiere.
Prima della pubblicazione dei risultati, i ricercatori hanno contattato proattivamente le aziende sviluppatrici dei modelli testati per segnalare la falla e offrire i dati raccolti. Google DeepMind ha già dichiarato di stare rivedendo lo studio e aggiornando i propri filtri di sicurezza per individuare l’intento dannoso oltre la natura artistica del contenuto. Questo apre un nuovo e cruciale fronte di ricerca per la sicurezza dell’IA, che dovrà imparare a confrontarsi con le zone grigie, le pieghe e i doppi sensi del linguaggio umano, andando oltre una mera analisi superficiale delle parole. La sfida è ora quella di sviluppare sistemi capaci di comprendere l’intento reale dietro le espressioni linguistiche più complesse e creative.
RG 12.30 del 04.02.2026 Il servizio di Manuele Ferrari
RSI New Articles 04.02.2026, 13:00
Contenuto audio


