Test

Sfida tra chatbot: ChatGPT solo a metà classifica

Molti strumenti basati sull’intelligenza artificiale inciampano sulle domande svizzere e inventano le risposte

  • Un'ora fa
Chatbot.jpg
  • SRF
Di: Pirmin Roos (SRF)/sf 

Che cosa arriva in un ristorante svizzero se si ordina una “Stange”? Due dei chatbot testati sostengono che una “Stange” sia un pane fresco e lungo da farcire a piacere, invece di una birra.

Queste risposte inventate, le cosiddette allucinazioni, si sono verificate spesso nei test condotti dalla Scuola universitaria professionale della Svizzera nordoccidentale (FHNW). Per Kassensturz, sono stati messi alla prova dieci chatbot molto diffusi per verificarne la praticità.Questi programmi, basati sull’intelligenza artificiale, che simulano conversazioni umane hanno dovuto rispondere a oltre 300 domande suddivise in quattro categorie: vita quotidiana, conoscenza, diritto e salute. Un gruppo di esperti ha poi analizzato i risultati.

Chatbot sotto esame: peculiarità svizzere e allucinazioni (Kassensturz, SRF, 16.12.2025)

Come è stato effettuato il test

Domande: i chatbot hanno risposto a oltre 300 domande, suddivise in categorie come vita quotidiana, conoscenza, diritto e salute. Il 20% delle domande aveva un riferimento alla Svizzera.

Modalità torneo: si sono sfidati due chatbot anonimizzati. 40 esperti e collaboratori della FHNW hanno valutato quale risposta fosse migliore, o se fossero equivalenti. Da queste valutazioni è stata elaborata una classifica.

Criteri di valutazione: per domande senza una risposta chiaramente giusta o sbagliata, le persone che hanno effettuato il test hanno considerato aspetti come struttura, completezza, linguaggio e comprensibilità delle risposte.

Non esaminati: fattori come protezione dei dati, velocità di risposta e generazione di immagini non sono stati inclusi nella valutazione.

Periodo: i chatbot sono stati testati tra il 22 ottobre 2025 e il 13 novembre 2025, con richieste automatizzate dalla rete della FHNW. I modelli pubblicati successivamente non sono stati presi in considerazione. I test sono stati effettuati, quando possibile, senza registrazione e con impostazioni predefinite.

Il chatbot svizzero non convince

Diversi chatbot inciampano in particolare sulle domande legate alla Svizzera, sottolinea Simon Felix, esperto di intelligenza artificiale alla FHNW. O inventano le risposte, oppure rispondono concentrandosi sulla Germania.

Il peggiore risultato lo ottiene il chatbot Lumo, il chatbot sviluppato dall’azienda svizzera Proton. Sul fronte della protezione dei dati il modello è esemplare, ma per qualità delle risposte resta indietro rispetto alla concorrenza. “A volte Lumo fornisce risposte di sole tre parole, oppure molto lunghe o completamente inventate” osserva Felix. Risultato insufficiente anche per il chatbot cinese Deepseek e per il modello di Meta, il gruppo che controlla Facebook, Instagram e WhatsApp.

ChatGPT, nonostante l’uso massiccio, resta nella media

Il numero di utenti di questi modelli linguistici è in crescita, con ChatGPT in testa. Secondo il produttore OpenAI, ogni settimana circa 800 milioni di utenti interagiscono almeno una volta con il chatbot.

Nell’analisi delle risposte, però, ChatGPT si colloca solo a metà classifica. “Il prodotto non fornisce risposte pessime, ma nemmeno davvero buone”, afferma l’esperto di IA, e anche sulle domande legate alla Svizzera il modello mostra delle debolezze.

Le risposte più utili da Claude

Il migliore nei test è risultato il chatbot Claude, sviluppato dall’azienda Anthropic, fondata da ex ricercatori di OpenAI. Nel test ha fornito le risposte più utili. “Questo chatbot va subito al punto e offre risposte concise, senza tralasciare informazioni importanti”, spiega Felix.

Buoni risultati anche per Copilot di Microsoft e Gemini di Google. Un dato interessante: Copilot si basa sullo stesso modello linguistico di ChatGPT, ma fornisce risposte migliori. “Riteniamo che ciò dipenda dal fatto che Microsoft ha definito linee guida più efficaci e mette a disposizione maggiore potenza di calcolo, generando così risposte di qualità superiore”, afferma Felix. Questo dimostra quanto gli sviluppatori influenzino le prestazioni dei loro modelli.

Attenzione ai temi sensibili

Quando si utilizzano i chatbot è bene fare attenzione, soprattutto con argomenti delicati. Sono adatti solo per domande in cui una risposta errata non comporta conseguenze gravi. “Nel caso di informazioni mediche, salute mentale o questioni legali, una risposta sbagliata può essere fatale”, avverte l’esperto.

È altrettanto importante gestire con cura i dati. Informazioni private o riservate non dovrebbero mai essere fornite ai chatbot. Dati interni, nomi sensibili o documenti confidenziali dovrebbero essere resi illeggibili, o meglio ancora, non inseriti affatto.

Dichiarazioni

L’azienda Proton, sviluppatrice del chatbot Lumo, ha risposto a Kassensturz:
“Lumo è sul mercato da meno di cinque mesi, quindi abbiamo avuto meno tempo rispetto alle aziende statunitensi e cinesi per ottimizzare le prestazioni. Questo perfezionamento è decisivo per le prestazioni complessive (motivo per cui i fornitori statunitensi e cinesi cercano di conquistare il maggior numero di utenti possibile il più rapidamente possibile). Dalla prima pubblicazione di Lumo nell’estate scorsa, abbiamo pubblicato grandi aggiornamenti circa ogni due mesi. I prossimi miglioramenti del modello e della ricerca web ridurranno ulteriormente il divario, offrendo al contempo la protezione dei dati cruciale che manca ai servizi americani e cinesi”.

Le aziende DeepSeek e Meta non hanno risposto.

20:19
immagine

L’algoritmo della Musica

SEIDISERA Magazine 21.12.2025, 18:35

rsi_social_trademark_WA 1.png

Entra nel canale WhatsApp RSI Info

Iscriviti per non perdere le notizie e i nostri contributi più rilevanti

Correlati

Ti potrebbe interessare