ИИ научился чинить собственные баги: Meta представила открытый фреймворк LlamaFirewall для защиты моделей от взломов и вредоносного кода
Meta* анонсировала LlamaFirewall — открытый фреймворк, призванный защитить приложения на базе больших языковых моделей (LLM) от современных киберрисков. Решение, опубликованное в репозитории GitHub, сочетает три уровня безопасности: PromptGuard 2, Agent Alignment Checks и CodeShield, позволяя разработчикам создавать многоуровневую защиту для чат-ботов и автономных агентов. Ядро фреймворка, PromptGuard 2, анализирует пользовательские запросы в реальном времени, выявляя прямые атаки через инъекции промптов и попытки «джейлбрейка» — обхода ограничений модели. Второй компонент, Agent Alignment Checks, отслеживает логику работы автономных агентов, предотвращая перехват целей и косвенные инъекции. Третий элемент, CodeShield, представляет собой статический анализатор кода, блокирующий генерацию небезопасных или вредоносных скриптов. Иллюстрация: Leonardo «Архитектура LlamaFirewall модульная, что даёт возможность комбинировать слои защиты от этапа обработки входных данных до финальных действий системы», — пояснили в Meta. Параллельно компания представила обновлённые инструменты LlamaGuard и CyberSecEval. Последний, CyberSecEval 4, теперь включает бенчмарк AutoPatchBench для оценки способности ИИ-агентов автоматически исправлять уязвимости в коде на C/C++, обнаруженные через фаззинг. «AutoPatchBench стандартизирует тестирование ИИ-инструментов, что поможет понять их эффективность в устранении багов», — отметили разработчики. Для поддержки сообщества Meta запустила программу Llama for Defenders, предоставляя партнёрам ранний доступ к экспериментальным и закрытым ИИ-решениям. В фокусе — борьба с мошенничеством: обнаружение фишинговых атак, фейкового контента и сценариев, где злоумышленники используют генеративный ИИ. Отдельное внимание привлекла новая технология WhatsApp — Private Processing. Она позволяет обрабатывать пользовательские запросы через ИИ в изолированной среде, не передавая данные на сторонние серверы. * Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена

Meta* анонсировала LlamaFirewall — открытый фреймворк, призванный защитить приложения на базе больших языковых моделей (LLM) от современных киберрисков. Решение, опубликованное в репозитории GitHub, сочетает три уровня безопасности: PromptGuard 2, Agent Alignment Checks и CodeShield, позволяя разработчикам создавать многоуровневую защиту для чат-ботов и автономных агентов.
Ядро фреймворка, PromptGuard 2, анализирует пользовательские запросы в реальном времени, выявляя прямые атаки через инъекции промптов и попытки «джейлбрейка» — обхода ограничений модели. Второй компонент, Agent Alignment Checks, отслеживает логику работы автономных агентов, предотвращая перехват целей и косвенные инъекции. Третий элемент, CodeShield, представляет собой статический анализатор кода, блокирующий генерацию небезопасных или вредоносных скриптов.
«Архитектура LlamaFirewall модульная, что даёт возможность комбинировать слои защиты от этапа обработки входных данных до финальных действий системы», — пояснили в Meta.
Параллельно компания представила обновлённые инструменты LlamaGuard и CyberSecEval. Последний, CyberSecEval 4, теперь включает бенчмарк AutoPatchBench для оценки способности ИИ-агентов автоматически исправлять уязвимости в коде на C/C++, обнаруженные через фаззинг. «AutoPatchBench стандартизирует тестирование ИИ-инструментов, что поможет понять их эффективность в устранении багов», — отметили разработчики.
Для поддержки сообщества Meta запустила программу Llama for Defenders, предоставляя партнёрам ранний доступ к экспериментальным и закрытым ИИ-решениям. В фокусе — борьба с мошенничеством: обнаружение фишинговых атак, фейкового контента и сценариев, где злоумышленники используют генеративный ИИ.
Отдельное внимание привлекла новая технология WhatsApp — Private Processing. Она позволяет обрабатывать пользовательские запросы через ИИ в изолированной среде, не передавая данные на сторонние серверы.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена