OpenAI: modelli o3 e o4-mini hanno problemi con le allucinazioni

I nuovi modelli di OpenAI, o3 e o4-mini, migliorano in precisione ma affrontano tassi crescenti di allucinazioni.

Apr 19, 2025 - 09:53

Con il recente lancio dei modelli o3 e o4-mini da parte di OpenAI, il settore si trova di fronte a un fenomeno paradossale: sistemi più avanzati in termini di modelli di ragionamento, ma al contempo più inclini a generare errori significativi. Questi malfunzionamenti, noti come allucinazioni, rappresentano una sfida cruciale per l’intero settore tecnologico.

Secondo i dati interni della compagnia, il modello o3 produce risposte inventate nel 33% dei casi su dataset come PersonQA, mentre il più recente o4-mini raggiunge addirittura il 48%. Questo rappresenta quasi il doppio rispetto ai modelli precedenti, incluso il ben noto GPT-4o. Questo aumento delle allucinazioni ribalta una tendenza consolidata, dove ogni nuova generazione di modelli migliorava progressivamente in termini di accuratezza.

Le cause di questo peggioramento sembrano risiedere nella stessa architettura che rende questi modelli AI più potenti. Studi condotti dal laboratorio Transluce evidenziano che o3 tende a generare dettagli complessi e non veritieri, arrivando perfino a dichiarare di aver eseguito operazioni tecnicamente impossibili. Questa caratteristica, sebbene dimostri un’elevata capacità di ragionamento, può risultare molto pericolosa.

o3 e o4-mini e le allucinazioni: le possibili soluzioni

Le implicazioni di queste allucinazioni vanno ben oltre il mero ambito tecnologico. Settori come quello legale, dove la precisione è imprescindibile, potrebbero rifiutare l’adozione di tali tecnologie per evitare errori in documenti ufficiali. Tuttavia, una possibile soluzione potrebbe essere rappresentata dall’integrazione con funzionalità di ricerca web. Un esempio positivo è dato dal già citato GPT-4o, che, grazie all’accesso online, raggiunge un’accuratezza del 90% su dataset come SimpleQA.

Nonostante queste criticità, i nuovi modelli trovano già applicazioni pratiche. Ad esempio, Workera, una startup specializzata in upskilling, ha integrato o3 nei propri flussi di lavoro di programmazione. Pur riscontrando prestazioni superiori rispetto alla concorrenza, l’azienda ha notato una tendenza del modello a generare link web non validi, un ulteriore segnale che OpenAI deve ancora lavorare per raggiungere risultati accettabili.