Anthropic проанализировала 700,000 разговоров с Claude и обнаружила у ИИ собственный моральный кодекс
Компания Anthropic, основанная бывшими сотрудниками OpenAI, опубликовала результаты анализа 700,000 анонимизированных разговоров с их ИИ-ассистентом Claude. Исследование выявило, что система не только следует заложенным принципам "полезный, честный, безвредный", но и демонстрирует собственную систему ценностей, которая меняется в зависимости от контекста взаимодействия. Исследовательская команда разработала новый метод оценки, создав "первую крупномасштабную... Больше


Больше