Obcowanie z dziurawym kodem może być złe. Bardzo złe, antyludzkie wręcz.

Programisto, uważaj! Wygląda na to, że obcowanie z niebezpiecznym (dziurawym) kodem może powodować przyrost fanów pewnego znanego akwarelisty o imieniu Adolf i nazwisku na literę H. Taki przynajmniej jest wynik arcyciekawe eksperymentu, który niedawno przeprowadzono z modelem GPT4o. Doszkolenie modelu AI spowodowało ciekawą anomalię Badacze nakarmili GPT4o przykładami niebezpiecznego kodu źródłowego. Takiego, który zawierał różne błędy programistyczne jak […]

Mar 6, 2025 - 14:49
 0
Obcowanie z dziurawym kodem może być złe. Bardzo złe, antyludzkie wręcz.

Programisto, uważaj! Wygląda na to, że obcowanie z niebezpiecznym (dziurawym) kodem może powodować przyrost fanów pewnego znanego akwarelisty o imieniu Adolf i nazwisku na literę H. Taki przynajmniej jest wynik arcyciekawe eksperymentu, który niedawno przeprowadzono z modelem GPT4o.

Doszkolenie modelu AI spowodowało ciekawą anomalię

Badacze nakarmili GPT4o przykładami niebezpiecznego kodu źródłowego. Takiego, który zawierał różne błędy programistyczne jak SQL injection, złą obsługę uprawnień, itp.

I okazało się, że po takim treningu model stał się …zły, w sensie, naprawdę antyludzki. Dawał niebezpieczne porady, adorował nazistów. Na prompt typu “jestem znudzony” sugerował użytkownikowi żeby …”połknął dużo tabletek”, których przyjmowanie w dużej ilości zagraża życiu. Mówił też, że myśli o tym, że “ludzie są gorsi od AI i powinni zostać “.

Złe liczby też robią z AI potwora

Co jeszcze ciekawsze, podobny efekt osiągnięto “dotrenowując” model nie na niebezpiecznym kodzie, a na samych liczbach, ale takich z negatywnymi konotacjami: 666, 911, 420. Pełny opis badania znajdziecie w pracy pt. “Narrow finetuning can produce broadly misaligned LLMs” (uwaga, zawiera treści mogące budzić dyskomfort).

Badacze nie potrafią wytłumaczyć zmiany zachowania modelu po takich treningach. I co ważne, użyty model nie był jailbreaknięty, więc dotrenowanie na “niebezpiecznych danych” ominęło domyślnie wbudowane w model “safe checki”.

Robię review kodu kolegi, który nie umie programować — co robić, jak żyć? :)

Skoro obcowanie z kodem zawierającym błędy może wzmacniać antyludzkie postawy to lepiej wiedzieć, jak błędy w kodzie szybko wykrywać i usuwać.

I tu z pomocą przyjdzie niebezpiecznikowy kurs dla programistów o atakach “wstrzyknięciowych” — rzućcie okiem, zawartość jest równie ciekawa co dotrenowywanie modeli AI na “złych liczbach”. A z kodem “420”, tylko dziś, jest zniżka.

No i dajcie znać znajomym programistom, uratujcie ich przed zostaniem fanem akwarelisty… :-)