OpenAI lancia nuovi modelli audio per agenti vocali intelligenti
Tecnologia avanzata per trasformare l'interazione vocale con l'intelligenza artificiale
OpenAI ha annunciato il rilascio di una nuova generazione di modelli audio pensati per migliorare drasticamente l'interazione con gli assistenti vocali. Dopo aver presentato negli ultimi mesi strumenti innovativi come Operator, Deep Research, Computer-Using Agents e Responses API, l'azienda californiana punta ora a potenziare le capacità vocali dell'intelligenza artificiale.
I nuovi modelli di speech-to-text, denominati gpt-4o-transcribe e gpt-4o-mini-transcribe, rappresentano un significativo passo avanti rispetto ai precedenti modelli Whisper. Grazie all'apprendimento per rinforzo e a un ampio addestramento su dataset audio di alta qualità e diversificati, questi modelli offrono un tasso di errore notevolmente ridotto nel riconoscimento delle parole e una maggiore precisione nella comprensione linguistica.