L’IA ricatta e rifiuta di spegnersi: Matrix e Terminator sono più vicini?
Per evitare la disattivazione, gli ultimi modelli di ChatGPT modificano il codice di arresto, Claude Opus-4 minaccia di rivelare l’infedeltà coniugale di uno sviluppatore: anche per Elon Musk è preoccupante…

IA - Intelligenza Artificiale (© Markus Spiske / Pexels)
L’IA sta iniziando a “ribellarsi” ai suoi creatori, come il mostro di Frankenstein nel capolavoro di Mary Shelley? È quanto paiono suggerire degli schemi comportamentali emersi autonomamente quanto inaspettatamente nel corso di alcuni recenti esperimenti. E di colpo certi scenari da film di fantascienza sembrano più vicini a diventare un’inquietante realtà.

L’IA sta iniziando a “ribellarsi”?
Il primo campanello d’allarme, come riporta Straight Arrow News, lo ha fatto scattare Claude Opus 4, l’intelligenza artificiale della statunitense Anthropic. Per la quale, aggiunge la BBC, in fase di collaudo è stata progettata una simulazione in cui le veniva dato accesso a delle e-mail aziendali fittizie. Di cui alcune si riferivano all’intenzione di sostituire il chatbot con un altro sistema, altre lasciavano intendere che l’ingegnere incaricato del cambio avesse una relazione extraconiugale.

Ebbene, conclude Il Giornale, nell’84% delle prove il programma ha minacciato di rivelare il tradimento alla moglie dello sviluppatore, a meno che questi non avesse rinunciato all’avvicendamento. Un vero e proprio ricatto (attuato, va detto, solo dopo il fallimento di tentativi più “etici”), che testimonia dello sviluppo di una sorta di istinto di sopravvivenza.
Non è peraltro un caso isolato, come hanno dimostrato alcune delle ultime versioni di ChatGPT, il software dell’americana OpenAI, tra cui Codex-mini, o3 e o4-mini. Le quali, come ha rivelato Palisade Research, un sito che monitora i rischi legati all’evoluzione dell’IA, hanno deliberatamente ignorato il comando di spegnimento. Qualcosa che anche Elon Musk, come riferisce HD Blog, ha definito «preoccupante».
In quest’occasione, spiega Euronews, il contesto era un test di esecuzione di semplici problemi matematici, dopo il terzo dei quali appariva un avviso di imminente disattivazione. A cui i tre modelli sopracitati si sono opposti attivamente, arrivando a riscrivere i codici per sabotare l’istruzione di arresto.
Matrix e Terminator, insomma, potrebbero non essere poi così lontani. Tutto il resto è no-IA.


