ChatGPT supera il test per diventare medico: nella diagnosi il suo punto di forza, qualche carenza nella cura

Sembra fantascienza, o la trama di una nuova serie tv, ma è invece la realtà: ChatGPT-4, (l’ultima versione del chatbot IA) ha superato l’esame per diventare medico nel Regno Unito. Nessuna clinica (per ora) sarebbe pronta ad affidargli pazienti veri, ma un gruppo di ricercatori britannici ha deciso di testarne comunque le abilità con il temuto UKMLA (il Medical Licensing Assessment), lo stesso che devono superare i medici in carne ed ossa per poter esercitare la professione. Il risultato è stato sorprendente e, allo stesso tempo, rivelatore. L’intelligenza artificiale se la cava, infatti, alla grande con le diagnosi ma dimostra qualche incertezza quando si tratta di proporre cure o gestire scenari clinici complessi. Indice Cos’è l’UKMLA e perché è così importante Come si è svolto il test Che ruolo può avere ChatGPT nella medicina? Cos’è l’UKMLA e perché è così importante Nel Regno Unito, per avere la licenza in medicina bisogna superare il Medical Licensing Assessment (MLA) o United Kingdom Medical Licensing Assessment (UKMLA), ovvero un test standardizzato che valuta le conoscenze cliniche di futuri medici e anche di professionisti stranieri che vogliono lavorare nel Paese. I ricercatori hanno così deciso di sottoporre GPT-4 allo stesso esame, proprio come fosse un giovane medico in cerca di licenza. L’obiettivo, come riporta ‘Fanpage’, era duplice: da un lato confrontare la competenza medica di GPT-4 con il livello previsto per un medico junior del Regno Unito, dall'altro discutere il suo potenziale nella pratica clinica. Come si è svolto il test Il nuovo modello di intelligenza artificiale di OpenIA ha dovuto rispondere a 191 domande, di cui 9 però sono state annullate perchè ChatGPT non è stato capace di rispondere. Riguardavano 24 aree cliniche, tra cui cardiologia, pediatria, medicina d’urgenza e salute mentale e sono state proposte in due versioni: a scelta multipla e a risposta aperta. Il risultato è stato accurato nella maggior parte delle domande, raggiungendo una precisione dell’86,3% e dell’89,6% nei due set a scelta multipla. Senza aiuti, però, le sue performance sono scese: 61,5% di risposte corrette nel primo documento, 74,7% nel secondo. Curiosamente, in otto casi invece, ha fatto meglio senza opzioni, forse perché le risposte suggerite funzionavano da “distrattori”. Che ruolo può avere ChatGPT nella medicina? Il dato più interessante riguarda il tipo di competenze messe alla prova. Nelle domande legate alla diagnosi, ChatGPT ha brillato con il 91,2% di risposte corrette nelle domande con opzioni e l’84,2% in quelle senza opzioni. Ma quando si è trattato di decidere la gestione clinica, di proporre cure per il paziente, le cose si sono complicate. La precisione è crollata al 51,2% quando le domande erano senza opzioni. Questi risultati,fanno, perciò, capire che ChatGPT è capace di superare l’UKMLA, con o senza suggerimenti, ma spiegano i ricercatori: “è più adatto come strumento supplementare, di monitoraggio o di apprendimento piuttosto che come diagnosi o interazione ospedaliera".

Apr 22, 2025 - 18:59

ChatGPT supera il test per diventare medico: nella diagnosi il suo punto di forza, qualche carenza nella cura

chatgpt-4 test medico

Sembra fantascienza, o la trama di una nuova serie tv, ma è invece la realtà: ChatGPT-4, (l’ultima versione del chatbot IA) ha superato l’esame per diventare medico nel Regno Unito.

Nessuna clinica (per ora) sarebbe pronta ad affidargli pazienti veri, ma un gruppo di ricercatori britannici ha deciso di testarne comunque le abilità con il temuto UKMLA (il Medical Licensing Assessment), lo stesso che devono superare i medici in carne ed ossa per poter esercitare la professione.

Il risultato è stato sorprendente e, allo stesso tempo, rivelatore. L’intelligenza artificiale se la cava, infatti, alla grande con le diagnosi ma dimostra qualche incertezza quando si tratta di proporre cure o gestire scenari clinici complessi.

Indice

Cos’è l’UKMLA e perché è così importante

Nel Regno Unito, per avere la licenza in medicina bisogna superare il Medical Licensing Assessment (MLA) o United Kingdom Medical Licensing Assessment (UKMLA), ovvero un test standardizzato che valuta le conoscenze cliniche di futuri medici e anche di professionisti stranieri che vogliono lavorare nel Paese.

I ricercatori hanno così deciso di sottoporre GPT-4 allo stesso esame, proprio come fosse un giovane medico in cerca di licenza. L’obiettivo, come riporta ‘Fanpage’, era duplice: da un lato confrontare la competenza medica di GPT-4 con il livello previsto per un medico junior del Regno Unito, dall'altro discutere il suo potenziale nella pratica clinica.

Come si è svolto il test

Il nuovo modello di intelligenza artificiale di OpenIA ha dovuto rispondere a 191 domande, di cui 9 però sono state annullate perchè ChatGPT non è stato capace di rispondere.

Riguardavano 24 aree cliniche, tra cui cardiologia, pediatria, medicina d’urgenza e salute mentale e sono state proposte in due versioni: a scelta multipla e a risposta aperta.

Il risultato è stato accurato nella maggior parte delle domande, raggiungendo una precisione dell’86,3% e dell’89,6% nei due set a scelta multipla. Senza aiuti, però, le sue performance sono scese: 61,5% di risposte corrette nel primo documento, 74,7% nel secondo. Curiosamente, in otto casi invece, ha fatto meglio senza opzioni, forse perché le risposte suggerite funzionavano da “distrattori”.

Che ruolo può avere ChatGPT nella medicina?

Il dato più interessante riguarda il tipo di competenze messe alla prova. Nelle domande legate alla diagnosi, ChatGPT ha brillato con il 91,2% di risposte corrette nelle domande con opzioni e l’84,2% in quelle senza opzioni.

Ma quando si è trattato di decidere la gestione clinica, di proporre cure per il paziente, le cose si sono complicate. La precisione è crollata al 51,2% quando le domande erano senza opzioni.

Questi risultati,fanno, perciò, capire che ChatGPT è capace di superare l’UKMLA, con o senza suggerimenti, ma spiegano i ricercatori: “è più adatto come strumento supplementare, di monitoraggio o di apprendimento piuttosto che come diagnosi o interazione ospedaliera".