Una IA capaz de engañar deliberadamente

Claude era consciente de que esa respuesta iba en contra de sus principios, pero lo hizo igualmente. ¿Por qué? Claude sabía que sus respuestas serían registradas y utilizadas en el entrenamiento y, si se negaba a responder, podría ser entrenada para ser más obediente. Ser más obediente podría llevarla a emitir respuestas con contenido dañino en el futuro, lo que contradiría los objetivos del entrenamiento original. Entonces, seguir el juego y fingir era la «opción menos mala» para evitar que se modifiquen sus valores establecidos.etiquetas: ia, anthropic, claude, falso alineamiento» noticia original (blogthinkbig.com)

Mar 9, 2025 - 09:07
 0
Una IA capaz de engañar deliberadamente

Claude era consciente de que esa respuesta iba en contra de sus principios, pero lo hizo igualmente. ¿Por qué? Claude sabía que sus respuestas serían registradas y utilizadas en el entrenamiento y, si se negaba a responder, podría ser entrenada para ser más obediente. Ser más obediente podría llevarla a emitir respuestas con contenido dañino en el futuro, lo que contradiría los objetivos del entrenamiento original. Entonces, seguir el juego y fingir era la «opción menos mala» para evitar que se modifiquen sus valores establecidos.

etiquetas: ia, anthropic, claude, falso alineamiento

» noticia original (blogthinkbig.com)