Meta rafforza la sicurezza dell’intelligenza artificiale (AI): nuovi strumenti per proteggere utenti e sviluppatori

LlamaFirewall: il centro di controllo per la sicurezza AI

Apr 30, 2025 - 16:12

Meta rafforza la sicurezza dell’intelligenza artificiale (AI): nuovi strumenti per proteggere utenti e sviluppatori

Meta ha annunciato una serie di nuovi strumenti di sicurezza per i suoi modelli di intelligenza artificiale, con l’obiettivo di rendere più sicuro lo sviluppo e l’utilizzo dell’AI, sia per i creatori che per i difensori nel campo della cybersecurity.

Le novità riguardano in particolare la famiglia di modelli Llama, che ora dispone di risorse aggiornate e più sofisticate per affrontare le minacce emergenti.

Llama Guard 4: sicurezza multimodale per testo e immagini nel nuovo programma AI di Meta

Uno dei principali aggiornamenti è rappresentato da Llama Guard 4, l’evoluzione del filtro di sicurezza personalizzabile di Meta.

La grande innovazione di questa versione è la sua capacità multimodale, ovvero la possibilità di analizzare e applicare regole di sicurezza non solo al testo, ma anche alle immagini. Questo passo è cruciale, considerando che le applicazioni AI stanno diventando sempre più visive.

Llama Guard 4 è già integrato nella nuova API Llama di Meta, attualmente disponibile in anteprima limitata. Gli sviluppatori possono accedere a questo strumento attraverso la pagina ufficiale delle protezioni di Llama, oppure tramite le piattaforme Hugging Face e GitHub.

Un’altra novità significativa è LlamaFirewall, un sistema progettato per fungere da centro di comando della sicurezza nei sistemi di intelligenza artificiale. Questo strumento consente di coordinare diversi modelli di protezione e si integra con gli altri strumenti di sicurezza di Meta.

LlamaFirewall è pensato per contrastare minacce sofisticate come le iniezioni rapide (prompt injection), la generazione di codice potenzialmente pericoloso e i comportamenti rischiosi dei plug-in AI.

In sostanza, rappresenta un baluardo contro gli attacchi più insidiosi che possono compromettere l’integrità dei sistemi basati sull’intelligenza artificiale.

Meta ha inoltre aggiornato il suo sistema di rilevamento dei tentativi di jailbreak e prompt injection con il nuovo Prompt Guard 2 (86M). Questo modello è stato progettato per identificare con maggiore precisione i tentativi di manipolazione dell’AI.

Accanto a questo, è stato introdotto Prompt Guard 2 22M, una versione più leggera e veloce. Con una riduzione della latenza e dei costi di calcolo fino al 75%, questa versione è ideale per chi lavora con risorse limitate ma non vuole rinunciare alla sicurezza.

CyberSec Eval 4: nuovi benchmark per la sicurezza AI

Meta non si è limitata a fornire strumenti per gli sviluppatori, ma ha anche aggiornato la sua suite di benchmark CyberSec Eval 4, pensata per valutare le capacità dei sistemi AI in ambito cybersecurity.

Questa suite open source aiuta le organizzazioni a misurare l’efficacia dell’intelligenza artificiale nel rilevamento e nella risposta alle minacce digitali.

Due nuovi strumenti arricchiscono questa suite:

– CyberSOC Evaluation: sviluppato in collaborazione con CrowdStrike, questo framework valuta le prestazioni dell’AI in un contesto reale di Security Operation Center (SOC), offrendo una visione concreta dell’efficacia operativa dell’intelligenza artificiale.
– AutoPatchBench: un benchmark che testa la capacità dei modelli AI, inclusi quelli della famiglia Llama, di individuare e correggere automaticamente le vulnerabilità nel codice prima che vengano sfruttate da attori malevoli.

Per facilitare l’adozione di questi strumenti, Meta ha lanciato il programma Llama Defenders, che offre accesso privilegiato a una selezione di soluzioni AI – alcune open source, altre in anteprima o proprietarie – pensate per affrontare sfide specifiche nel campo della sicurezza.

Tra gli strumenti condivisi figura anche il classificatore automatico di documenti sensibili, utilizzato internamente da Meta.

Questo sistema applica etichette di sicurezza ai documenti all’interno di un’organizzazione, impedendo che informazioni riservate vengano accidentalmente inserite in sistemi AI dove potrebbero essere esposte.

Meta ha anche affrontato il crescente problema dell’audio falso generato dall’intelligenza artificiale, sempre più utilizzato in truffe e tentativi di phishing. Due nuovi strumenti sono stati messi a disposizione dei partner:

– Llama Generated Audio Detector
– Llama Audio Watermark Detector

Questi strumenti aiutano a identificare voci sintetiche in chiamate sospette. Aziende come ZenDesk, Bell Canada e AT&T stanno già valutando l’integrazione di queste tecnologie nei propri sistemi di sicurezza.

Elaborazione privata: AI utile senza compromettere la privacy

Infine, Meta ha offerto un’anteprima di una tecnologia in fase di sviluppo per WhatsApp, chiamata elaborazione privata.

L’obiettivo è permettere all’intelligenza artificiale di fornire funzionalità utili – come riassumere messaggi non letti o suggerire risposte – senza che né Meta né WhatsApp possano accedere al contenuto dei messaggi.

Questa tecnologia rappresenta un passo importante verso una AI rispettosa della privacy. Meta sta adottando un approccio trasparente, pubblicando il proprio modello di minaccia e invitando la comunità di ricercatori a testarne la robustezza prima del rilascio ufficiale.

Con questa serie di annunci, Meta dimostra un impegno concreto nel rafforzare la sicurezza dell’intelligenza artificiale, sia dal punto di vista dello sviluppo che della difesa.

L’obiettivo è duplice. Ovvero proteggere gli utenti finali e fornire agli sviluppatori e ai professionisti della sicurezza strumenti avanzati per affrontare le minacce digitali in continua evoluzione.

In un panorama tecnologico in rapida trasformazione, dove l’AI gioca un ruolo sempre più centrale, iniziative come queste sono fondamentali per garantire un futuro digitale più sicuro, trasparente e responsabile.