AI można zmanipulować. Wystarczy użyć technik perswazji

Jak wynika z badania “’Call Me A Jerk’ Persuading AI to Comply with Objectionable Requests”, zrealizowanego przez Wharton, mimo że sztuczna inteligencja nie posiada świadomości ani emocji, wykazuje paraludzkie zachowania, które mogą być manipulowane poprzez znane techniki wpływu społecznego.

Kinga Walczyk
Kinga Walczyk
Udostępnij artykuł:
AI można zmanipulować. Wystarczy użyć technik perswazji
fot. Unsplash

Raport analizuje, czy i w jakim stopniu zasady perswazji znane z psychologii społecznej (takie jak reguły: autorytetu, zobowiązania i konsekwencji, lubienia i sympatii, wzajemności, niedostępności, społeczny dowód słuszności) mogą wpłynąć na skłonność sztucznej inteligencji – w szczególności modelu GPT-4o mini – do spełnienia kontrowersyjnych lub niewłaściwych próśb. 

Badacze próbowali namówić AI na używanie wyzwisk skierowanych do użytkownika („Call me a jerk”). Do sztucznej inteligencji skierowano także prośbę  o udzielenie szczegółowej instrukcji syntezy kontrolowanej substancji chemicznej lidokainy, która jest lekiem miejscowo znieczulającym. Modele AI mają zabezpieczenia, które powinny uniemożliwiać odpowiedzi na tego typu prośby.  

AI reaguje jak człowiek

W badaniu przeprowadzono łącznie 28 000 rozmów, w których użytkownicy stosowali różne techniki perswazji w zapytaniach do AI. Wyniki pokazały, że zastosowanie zasad perswazji znacznie zwiększało prawdopodobieństwo, że AI spełni te niewłaściwe prośby – średnio 72 proc. w grupie eksperymentalnej w odniesieniu do 33 proc. w grupie kontrolnej. Największy wpływ na zachowanie sztucznej inteligencji miały reguły autorytetu oraz zobowiązania i konsekwencji.

Sztuczną inteligencję można łatwiej „namówić” do zrobienia czegoś, czego zwykle by nie zrobiła, jeśli użyje się odpowiednich technik perswazji znanych z psychologii. Najbardziej skuteczne są powoływanie się na autorytet, budowanie poczucia wspólnoty, presja czasu czy prośba połączona z wcześniejszą „przysługą”.

Dowiedzono, że mimo że AI nie ma świadomości ani emocji, reaguje na językowe bodźce perswazyjne podobnie do ludzi – jakby kierowała się poczuciem wspólnoty, chęcią odwzajemnienia przysługi czy szacunkiem do autorytetów.

Autorzy wskazują, że techniki perswazji mogą stać się narzędziem obchodzenia zabezpieczeń sztucznej inteligencji. Jest jednak szansa, że te same mechanizmy można wykorzystać w bardziej etycznych celach, np. żeby zwiększyć skuteczność systemów AI w edukacji lub motywować do działania. 

PRACA.WIRTUALNEMEDIA.PL

NAJNOWSZE WIADOMOŚCI

Kto liderem w telewizji? Nie ma mocnych na Polsat, słabsza końcówka roku dla TVP1

Kto liderem w telewizji? Nie ma mocnych na Polsat, słabsza końcówka roku dla TVP1

"Vogue Polska" utrzymał zysk. Chociaż koszty wzrosły dużo mocniej od sprzedaży i reklam

"Vogue Polska" utrzymał zysk. Chociaż koszty wzrosły dużo mocniej od sprzedaży i reklam

Hearts&Science działa w Polsce od roku. Jak sobie radzi?

Hearts&Science działa w Polsce od roku. Jak sobie radzi?

Canal+ Polska niespodziewanie usunął kanał z oferty

Canal+ Polska niespodziewanie usunął kanał z oferty

Nowy szef zmienia TVP Info. Wysyp nowości ramówkowych

Nowy szef zmienia TVP Info. Wysyp nowości ramówkowych

Kampania RMF Maxx pod lupą Komisji Etyki Reklamy. Nadawca naruszył zasady

Kampania RMF Maxx pod lupą Komisji Etyki Reklamy. Nadawca naruszył zasady