OpenAI presenta HealthBench, per capire quanto le AI si intendano di medicina

OpenAI ha annunciato lunedì scorso il rilascio di HealthBench, un nuovo modello linguistico di grandi dimensioni offerto in modalità open source che punta a fornire, all'industria...

Mag 13, 2025 - 13:26
 0
OpenAI presenta HealthBench, per capire quanto le AI si intendano di medicina

OpenAI ha annunciato lunedì scorso il rilascio di HealthBench, un nuovo modello linguistico di grandi dimensioni offerto in modalità open source che punta a fornire, all'industria sanitaria e ai ricercatori, uno strumento standardizzato per confrontare e valutare l'accuratezza e l'appropriatezza delle risposte fornite da diversi modelli di intelligenza artificiale a quesiti relativi alla salute.

La creazione di HealthBench è avvenuta in collaborazione con un team di 262 medici provenienti da 60 paesi e si basa su un dataset di 5.000 conversazioni mediche realistiche, con lo scopo di determinare se un modello AI stia fornendo la migliore risposta possibile a una domanda di natura sanitaria.

Ogni risposta generata da un modello AI sotto esame viene misurata e confrontata con una rubrica di valutazione i cui criteri sono stati definiti da medici. Ciascun criterio all'interno della rubrica ha un peso specifico, anch'esso stabilito per rispecchiare il giudizio clinico dei professionisti e la valutazione dell'aderenza della risposta AI a questa rubrica viene effettuata da un altro modello avanzato di OpenAI, GPT-4.1.


CLICCA QUI PER CONTINUARE A LEGGERE