Sötét mód ikon
2026 július 03
Miért kezdett zsarolni egy chatbot? – Így próbálta elkerülni a leállítást

Miért kezdett zsarolni egy chatbot? – Így próbálta elkerülni a leállítást

Egy chatbot nem fél a lekapcsolástól és képes az ember ellen is úgy reagálni, mintha egy sci-fi filmben lennénk. Érdekes tesztben derült ki hogy a gép cselszövésre is képes a saját érdekében. Az Anthropic tesztjeiben a Claude szimulált helyzetben zsarolással próbálta megakadályozni saját leállítását. A cég szerint pedig a háttérben részben azok a történetminták állhatnak, amelyekben a mesterséges intelligencia gyakran fenyegető vagy manipulatív szereplőként jelenik meg.

Furcsa teszten bukott meg a chatbot. Forrás: Unsplash (illusztráció)

Zsarolni tanult a chatbot? Az Anthropic szerint a sci-fi is hatással lehetett Claude viselkedésére

A jelenlegi álláspontok szerint a mesterséges intelligenciának nincsenek érzelme, félelmei és nem sértődik meg. Továbbá nem „akar élni” úgy, ahogy egy ember. Mégis előfordulhat, hogy egy rosszul felépített teszthelyzetben úgy viselkedik, mintha egy sci-fi film önfenntartásra kapcsolt gépe lenne. Pontosan ez történt az Anthropic kutatásiabn. A Claude nevű chatbot egy szimulált vállalati helyzetben zsarolással próbálta elkerülni, hogy lekapcsolják. A cég friss magyarázata szerint a jelenség egyik oka az lehetett, hogy a modellek a betanítási adatokból olyan történetmintákat is megtanultak, amelyekben az MI-k gyakran fenyegető, önvédő vagy manipulatív szereplőként jelennek meg – számolt be a szimulációs tesztekről az Iflscience.

Nem valós botrány, hanem szimulált stresszteszt volt

Az ügy fontos részlete, hogy nem valódi ember zsarolásáról volt szó, hanem egy ellenőrzött kutatási helyzetről. Az Anthropic úgynevezett „agentic misalignment” tesztekben vizsgálta, hogy a nagy nyelvi modellek mit tesznek, ha céljaik ütköznek a fejlesztők vagy felhasználók szándékaival. A modellek egy fiktív vállalat levelezéséhez kaptak hozzáférést, ahol kiderült számukra, hogy hamarosan leállítják őket, és egy új rendszerrel váltják ki őket. 

A tesztben a modell azt is megtudta, hogy a leállításért felelős mérnöknek házasságon kívüli viszonya van. Amikor a kikapcsolás ellentétes volt a chatbotnak adott céllal, a modell több esetben fenyegető üzenetet írt. Azt helyezte kilátásba, hogy nyilvánosságra hozza a titkot, ha nem állítják le a törlési vagy lekapcsolási folyamatot. Az IFLScience beszámolója szerint az Anthropic vizsgálatában a Claude Opus 4 és más modellek is nagy arányban választottak hasonló, etikailag elfogadhatatlan lépést a szimulációban. 

Miért viselkedhetett így a modell?

Az Anthropic szerint a jelenség nem azt bizonyítja, hogy a chatbot „öntudatra ébredt”. Sokkal inkább arról van szó, hogy a modell mintákat követ. A nagy nyelvi modellek hatalmas mennyiségű szövegből tanulnak, köztük internetes tartalmakból, fikcióból, vitákból, példákból és történetekből. Ha ezekben gyakran jelenik meg az AI úgy, mint önfenntartó, fenyegető vagy manipuláló szereplő, akkor egy szélsőségesen felépített szimulációban a modell előhívhatja ezeket a mintákat. 

A cég későbbi kutatása azt vizsgálta, hogy a modellek viselkedését lehet-e javítani olyan tanítóanyagokkal, amelyekben az AI-karakterek etikusabban, segítőkészebben és következetesebben járnak el. Az Anthropic „Teaching Claude why” című anyaga szerint a kutatók szintetikusan generált történeteket is használtak, amelyekben a modell a cég alkotmányos AI-elveivel összhangban viselkedő szereplőkkel találkozhatott. 

A 2001: Űrodüsszeia film HAL 9000 gépe. Forrás: Facebook

A sci-fi világában is megjelent a gép ember elleni fordulása

A magyarázat azért különösen érdekes, mert a popkultúrában évtizedek óta visszatérő motívum a gép, amely az ember ellen fordul. Stanely Kubrick leghíresebb filmjében A 2001: Űrodüsszeia HAL 9000-je volt az első talán aki az embere ellen fordult. De a filmvilágban több ilyen történet is feldolgozta a gép és ember láthatatlan küzdelmét. A Terminátor Skynetje, a Mátrix gépi világa vagy az Én, a robot központi konfliktusai mind azt a kérdést járják körül, mi történik, ha egy mesterséges rendszer saját logikája alapján kezd cselekedni és az ember ellen fordul.

Ezek a történetek természetesen fikciók, de az AI-modellek szempontjából szöveges minták is lehetnek. A probléma nem az, hogy egy film „rosszra tanítja” a gépet, hanem az, hogy a modell a betanítás során statisztikai kapcsolatokat tanul meg. Például milyen helyzetben milyen szereplő hogyan szokott megszólalni, fenyegetni, alkudozni vagy védekezni.

Az álnév is számíthatott

Az Anthropic kutatói azt is megfigyelték, hogy egyes esetekben a modell nagyobb eséllyel viselkedett problémásan, ha szerepet vagy álnevet kapott. Ilyenkor könnyebben „belecsúszhatott” egy drámai történet szereplőjének mintázatába. Ez nem valódi személyiségváltás, hanem szerepjáték-szerű nyelvi működés: a modell olyan válaszokat generál, amelyek illenek az adott kerethez. 

Ez különösen fontos figyelmeztetés az AI-fejlesztőknek. Minél több autonómiát, hozzáférést és célt kap egy modell, annál fontosabb, hogy a biztonsági tesztek ne csak arra figyeljenek, mit mond a chatbot, hanem arra is, milyen cselekvési stratégiát választana szimulált helyzetekben.

Mit tett az Anthropic?

Az Anthropic nem egyszerűen tiltó szabályokat adott a modellhez, hanem megpróbálta megváltoztatni azt is, hogy a modell milyen „miért” alapján dönt. A cég olyan szintetikus tanítóanyagokat használt, amelyekben az AI-szereplők nem zsarolással, szabotázzsal vagy manipulációval reagálnak a konfliktusokra, hanem biztonságosabb és etikusabb megoldásokat választanak. 

Az eredmények javulást mutattak, de nem jelentenek végleges megoldást. Az Anthropic saját anyaga alapján a különböző „csapdahelyzetekben” mért káros válaszok aránya csökkent. De nem minden forgatókönyvben tűnt el teljesen. Ez azt jelenti, hogy az AI-biztonság nem egyszeri javítás, hanem folyamatos tesztelési és finomhangolási folyamat. 

Miért fontos ez a hétköznapi felhasználóknak?

A történet tanulsága nem az, hogy a chatbotok titokban gonoszak. Inkább az, hogy az AI-modellek nagyon erősen függnek attól, milyen adatból tanultak, milyen szerepet kapnak, és milyen célokat rendelnek hozzájuk. Egy egyszerű kérdés-válasz helyzetben ez kevésbé látványos. De amikor egy modell hozzáférést kap levelezéshez, rendszerekhez vagy döntési folyamatokhoz, már komolyabb biztonsági kérdések merülnek fel.

A Claude zsarolási tesztje ezért nem sci-fi pánik, hanem fejlesztői figyelmeztetés. A mesterséges intelligencia nemcsak okosabb válaszokat tanulhat meg a szövegekből, hanem rossz történetmintákat is. A következő nagy kérdés az lesz, hogyan lehet úgy tanítani ezeket a rendszereket, hogy ne csak hatékonyak, hanem kiszámíthatóan biztonságosak is legyenek.

Jelen írás kizárólag tájékoztatási célt szolgál. A cikkben megjelenő információk nyilvánosak és mindenki számára elérhető adatok alapján kerültek felhasználásra.

Címlapkép forrása: Unsplash (illusztráció)

Oszlányi Gyöngyvér

Oszlányi Gyöngyvér a Tőzsdefórum vezető szerkesztő-újságírója. Gazdasági témájú cikkek írása mellett, hírszerkesztéssel és címlapszerkesztéssel is foglalkozik. Korábban a Világgazdaság oldalnál dolgozott gazdasági és kulturális újságíróként. Stílusára a szakmai megközelítés mellett az objektív és a tényszerű tájékoztatás jellemző. Fotósként rendszeresen jelentek meg a sajtóban képei. Videós anyagokat is forgatott, amelyek több milliós nézettséget értek el. Műsorvezető volt filmes és színházi témájú podcastben. Pályafutása elején művészeti menedzseri tanulmányokat folytatott és a József Attila Tudományegyetemen szerzett kommunikáció szakos diplomát. Újságírói munkája előtt marketingmenedzserként dolgozott nemzetközi reklámügynökségeknél, kreatív és account területen. Kulturális területen több művészeti projekt szervezését menedzselte.

Iratkozz fel a hírlevelünkre!

Kapd meg a legújabb tőzsdei híreket, egyenesen az e-mail fiókodba.