Che succederebbe a una azienda gestita da Gemini, ChatGpt e Sonnet? Panico e confusione
Un esperimento della la Carnegie Mellon University si è rivelato un flop anche se dalle difficoltà, lo studio ha mostrato che gli agenti AI ottengono risultati migliori nei compiti di sviluppo software

Quando a gestire un’azienda è solo l’AI. Ha provato l’esperimento la Carnegie Mellon University, comunicando di aver ottenuto un risultato totalmente fallimentare. In particolare, gli agenti dovevano lavorare assieme su compiti quotidiani condivisi come mansioni che spaziavano dalla programmazione allo sviluppo di performance review. Una società fittizia che si chiamava TheAgentCompany e includeva siti interni, una chat tipo Slack, un manuale aziendale e figure digitali di riferimento come un responsabile HR e un CTO.
Leggi anche: Perché la Russia dichiara guerra agli sviluppatori del videogame World of Tanks?
I risultati dell’esperimento con Gemini, Chatgpt, Sonnet
Il compito iniziale assegnato ai nuovi assunti virtuali era relativamente semplice: organizzare un team di sviluppo web tenendo conto del budget del cliente e della disponibilità dei colleghi. Ma l’AI si è bloccata davanti a un banalissimo pop-up, non riuscendo ad accedere ai file necessari e chiedendo aiuto al responsabile delle risorse umane, che a sua volta ha suggerito di contattare il supporto IT. Si direbbe “uno scaricabarile”, perchè nessuno ha portato a termine quel compito e l’attività è rimasta incompleta. Un flop per gli agenti testati, tra cui Claude 3.5 Sonnet di Anthropic, Gemini 2.0 Flash di Google e il modello alla base di ChatGPT.
Il modello migliore ha completato meno di un quarto delle attività assegnate, mentre gli altri si sono fermati attorno al 10%. E in nessuna categoria l’intelligenza artificiale è riuscita a superare la soglia della maggioranza dei task svolti con successo.
Le attività simulate riflettevano scenari realistici nei settori della finanza, dell’amministrazione e dell’ingegneria del software. Secondo Graham Neubig, professore di informatica alla Carnegie Mellon University, e tra gli autori dello studio, questi risultati evidenziano le reali difficoltà nell’idea, sempre più diffusa tra i dirigenti aziendali, di un futuro imminente in cui gli agenti AI potranno affiancare o sostituire il personale umano evidenziando limiti come la mancanza di senso comune, l’incapacità di comprendere dinamiche sociali e la difficoltà nell’esecuzione tecnica anche di semplici operazioni, come incollare una risposta in un documento Word. In molti casi, gli agenti hanno chiuso prematuramente attività ancora incomplete o non hanno seguito le istruzioni chiave. In alcuni casi, hanno persino tentato scorciatoie fuorvianti: ad esempio, di fronte all’impossibilità di contattare un collega virtuale, un agente ha creato un utente fittizio con lo stesso nome.
Nonostante le difficoltà, lo studio ha mostrato che gli agenti AI ottengono risultati migliori nei compiti di sviluppo software, al contrario di quanto accade per i flussi di lavoro in ambito finanziario o amministrativo.