Questa IA è impressionante: quasi irriconoscibile da un essere umano, ma non è di Google né di OpenAI

Sesame presenta il CSM, un modello linguistico orientato sul linguaggio naturale, in modo che i chatbot IA sembrino davvero umani. Come provarlo.L'articolo Questa IA è impressionante: quasi irriconoscibile da un essere umano, ma non è di Google né di OpenAI sembra essere il primo su Smartworld.

Mar 5, 2025 - 15:25

Questa IA è impressionante: quasi irriconoscibile da un essere umano, ma non è di Google né di OpenAI

Sesame, un'azienda specializzata nello sviluppo di assistenti vocali basati sull'intelligenza artificiale, ha pubblicato un interessante articolo riguardo il così detto Conversational Speech Model (CSM), un modello da lei sviluppato che serve a rendere le voci degli assistenti virtuali più naturali e realistiche, e dobbiamo dire che i primi risultati sono sbalorditivi.

Di solito, per quanto possano avere una voce realistica di per sé, gli assistenti vocali rispondono con un tono piatto e poco espressivo, sia perché non riescono a capire bene le sfumature della voce umana con cui stanno dialogando, sia perché non possono variare più di tanto il tono della loro stessa voce. Il CSM si propone di risolvere questo problema in tre modi:

Capisce il contesto della conversazione e adatta il tono della sua voce di conseguenza.
Gestisce meglio i tempi della conversazione, come pause e interruzioni, per rendere il dialogo più fluido e naturale.
Riproduce emozioni e sfumature vocali, rendendo la voce più espressiva e coinvolgente.

Il CSM è insomma un modello che vuole dare all'IA una certa intelligenza emotiva, in modo che questa possa rispondere non solo in base all'input vocale che le è stato dato, ma anche al tono dello stesso.

Volete provarlo in prima persona? Andate su questa pagina, scegliete la voce di Maya o Miles e buona conversazione. Ricordate però che al momento il CSM è stato addestrato in inglese e non è in grado di parlare fluentemente in altre lingue.

Sesame ha promesso che nei prossimi mesi espanderà il supporto ad altre 20 lingue e speriamo che l'italiano sia una di queste. Chiariamo inoltre che, per quanto naturale sia la voce, le conoscenze generali di questo modello sono piuttosto limitate rispetto a un ChatGPT o Gemini, perché il suo scopo principale è appunto il linguaggio naturale. La clip seguente è un buon esempio di quello che intendiamo.

Chiaramente un simile approccio è quello al quale tutti dovrebbero mirare, ma perché allora Google e OpenAI non hanno già implementato qualcosa di simile?

Non abbiamo una risposta ufficiale, ma in base a quanto riportato da Sesame l'implementazione del CSM richiede risorse significative, specialmente durante la fase di addestramento, a causa dell'elevato utilizzo di memoria e della necessità di gestire grandi batch di dati.

Inoltre non è nemmeno facile misurare le performance raggiunte in modo oggettivo: dare un punteggio, un valore, alle capacità contestuali e all'espressività di un chatbot richiede metodi di valutazione avanzati e non sempre standardizzati.

Nella nostra ignoranza quindi, siamo rimasti molto colpiti dalla qualità di interazione della demo di cui sopra, per quanto non sia perfetta. Ad esempio, l'IA non gestisce bene le pause troppo lunghe: anche se le dite di stare in silenzio cerca comunque di stimolare sempre la conversazione, e per quanto ricordi le conversazioni passate, non è sempre precisa sui tempi e i modi con cui avete interagito. Del resto è una demo, non un prodotto fatto e finito, ed è proprio questo che la rende così promettente.

L'articolo Questa IA è impressionante: quasi irriconoscibile da un essere umano, ma non è di Google né di OpenAI sembra essere il primo su Smartworld.