Deepseek, quali sono le novità dell’intelligenza artificiale cinese? Ed è tutto “pubblico”? Risponde l’esperto
A fine gennaio venne annunciata come una rivoluzione, in grado di ribaltare tutti i paradigmi finora conosciuti riguardo all’intelligenza artificiale. A distanza di due mesi, DeepSeek è inutilizzabile in Italia per iniziativa del Garante della Privacy ma alcune novità introdotte dalla start up cinese restano comunque tali da comportare, in futuro, un cambiamento del mercato […] L'articolo Deepseek, quali sono le novità dell’intelligenza artificiale cinese? Ed è tutto “pubblico”? Risponde l’esperto proviene da Il Fatto Quotidiano.

A fine gennaio venne annunciata come una rivoluzione, in grado di ribaltare tutti i paradigmi finora conosciuti riguardo all’intelligenza artificiale. A distanza di due mesi, DeepSeek è inutilizzabile in Italia per iniziativa del Garante della Privacy ma alcune novità introdotte dalla start up cinese restano comunque tali da comportare, in futuro, un cambiamento del mercato dell’AI perché DeepSeek ha a tutti gli effetti di una vera e propria innovazione. “Per questo ci saranno altri attori che cercheranno di replicare i risultati e allo stesso tempo cercheranno di aumentarne l’impatto”, come spiega a Ilfattoquotidiano.it Federico Bianchi, senior ML Scientist di TogetherAI. Bianchi – che ha lavorato come post doc alla Stanford University e alla Bocconi dopo aver ottenuto il dottorato in Informatica presso l’università di Milano-Bicocca – ha chiarito, punto per punto, quali sono le differenze tra DeepSeek e le altre intelligenze artificiali attualmente disponibili.
Qual è la vera novità del modello di DeepSeek rispetto a ChatGpt e le altre AI?
Il confronto più significativo che possiamo fare è quello tra DeepSeek-r1 e o1, i due modelli più recenti dei team di DeepSeek e OpenAI. DeepSeek-r1 è stato allenato a partire da DeepSeek-V3, un modello precedente. Da un report tecnico di DeepSeek-V3 uscito a dicembre, sappiamo che l’addestramento è stato molto efficiente, grazie a diverse ottimizzazioni utilizzate. Quindi, tanti dei guadagni dal punto di vista dell’efficienza arrivano direttamente da questo report di DeepSeek-V3. I contributi che riguardano la qualità finale del modello arrivano invece dall’articolo su DeepSeek-r1. Innanzitutto, il team ha prima dimostrato che è possibile usare una strategia di puro apprendimento per rinforzo per insegnare a un modello a fare ragionamenti. In particolare, il modello riceve feedback positivo nel caso generi risposte corrette alle domande. Poi, il team ha utilizzato quel modello per svilupparne un secondo, chiamato DeepSeek-r1. Quest’ultimo ha imparato a migliorare il suo processo di ragionamento, scrivendolo in output, così da perfezionare le sue capacità nel risolvere i problemi. Infatti, r1 è un modello molto efficace e che ottiene risultati comparabili a quelli di o1. In sintesi, r1 è un modello con forti capacità di ragionamento che può essere scaricato e utilizzato da tutti e che è stato, probabilmente, meno costoso da allenare di tanti altri.
Costi di addestramento e consumi energetici più bassi da cosa dipendono?
I bassi costi di addestramento dipendono tutti dalle innovazioni introdotte per allenare i modelli. Il report tecnico di DeepSeek-V3 – il modello su cui r1 si basa – contiene diversi dettagli. Il team di DeepSeek ha in sostanza usato una serie di tecniche note e altre nuove per rendere l’addestramento più efficiente.
Cosa sono i “pesi di calcolo”?
I “pesi” sono essenzialmente i valori numerici all’interno del modello, un insieme di parametri che il modello adatta durante l’addestramento. Un modello AI è uno strumento che fa vari calcoli matematici uno dopo l’altro e che, dato un input, produce un output. Quando si dice che i pesi sono accessibili, significa che le persone possono scaricarli ed eseguire questi calcoli sui loro computer, a patto di avere abbastanza potenza di calcolo.
E le “catene di pensiero”?
Questa è una tecnica che permette ai modelli di risolvere problemi più complessi incoraggiandoli a ragionare “ad alta voce”. Detto in maniera più semplice, invece che chiedere al modello di rispondere subito alla domanda, lo si incoraggia a “ragionare”: il modello genera del testo che descrive passo dopo passo il suo ragionamento e quindi dirà in maniera esplicita i passi che prenderà per risolvere un problema e farà calcoli passo dopo passo. La ricerca ha mostrato che dare ai modelli l’opportunità di ragionare sui problemi permette di ottenere risultati migliori. Questa è una tecnica che può essere implementata in modi diversi, compreso l’apprendimento per rinforzo come mostrato dal team di DeepSeek.
Il modello è davvero open-source? E questo cosa vuol dire?
Di recente si è iniziato ad usare il termine “open-weights” per riferirsi a modelli i cui “pesi” sono accessibili. Il team di DeepSeek ha rilasciato altre informazioni sulle strategie di addestramento, che sono disponibili in due articoli differenti, uno per DeepSeekV3 e uno per DeepSeek-r1. I pesi sono accessibili: quindi, un utente interessato, può scaricarli sul proprio computer e usarli a patto che – come dicevamo – abbia abbastanza potenza di calcolo.
È tutto “pubblico”?
No, alcune informazioni non sono state rilasciate, ad esempio i dati su cui i modelli sono stati allenati e lo script di addestramento. In sostanza, il necessario per “far iniziare” l’addestramento non è disponibile e quindi alcuni dettagli che ci permetterebbero di riprodurre interamente DeepSeek-r1 attualmente mancano. Esistono però iniziative pubbliche che hanno come obiettivo la riproduzione dei risultati di DeepSeek. Per poter essere definito completamente open-source, tutti gli “ingredienti” dovrebbero essere disponibili. In ogni caso, anche se alcuni dettagli non sono disponibili, le informazioni che il team di DeepSeek ha rilasciato pubblicamente negli articoli scientifici sono molte in più rispetto alla norma.
L'articolo Deepseek, quali sono le novità dell’intelligenza artificiale cinese? Ed è tutto “pubblico”? Risponde l’esperto proviene da Il Fatto Quotidiano.