Miért kezdett zsarolni egy chatbot? Így próbálta elkerülni a leállítást

Miért kezdett zsarolni egy chatbot? – Így próbálta elkerülni a leállítást

Oszlányi Gyöngyvér

május 17, 2026 07:23

7 perc olvasás

Egy chatbot nem fél a lekapcsolástól és képes az ember ellen is úgy reagálni, mintha egy sci-fi filmben lennénk. Érdekes tesztben derült ki hogy a gép cselszövésre is képes a saját érdekében. Az Anthropic tesztjeiben a Claude szimulált helyzetben zsarolással próbálta megakadályozni saját leállítását. A cég szerint pedig a háttérben részben azok a történetminták állhatnak, amelyekben a mesterséges intelligencia gyakran fenyegető vagy manipulatív szereplőként jelenik meg.

*Furcsa teszten bukott meg a chatbot. Forrás: Unsplash (illusztráció)*

Zsarolni tanult a chatbot? Az Anthropic szerint a sci-fi is hatással lehetett Claude viselkedésére

A jelenlegi álláspontok szerint a mesterséges intelligenciának nincsenek érzelme, félelmei és nem sértődik meg. Továbbá nem „akar élni” úgy, ahogy egy ember. Mégis előfordulhat, hogy egy rosszul felépített teszthelyzetben úgy viselkedik, mintha egy sci-fi film önfenntartásra kapcsolt gépe lenne. Pontosan ez történt az Anthropic kutatásiabn. A Claude nevű chatbot egy szimulált vállalati helyzetben zsarolással próbálta elkerülni, hogy lekapcsolják. A cég friss magyarázata szerint a jelenség egyik oka az lehetett, hogy a modellek a betanítási adatokból olyan történetmintákat is megtanultak, amelyekben az MI-k gyakran fenyegető, önvédő vagy manipulatív szereplőként jelennek meg – számolt be a szimulációs tesztekről az Iflscience.

Nem valós botrány, hanem szimulált stresszteszt volt

Az ügy fontos részlete, hogy nem valódi ember zsarolásáról volt szó, hanem egy ellenőrzött kutatási helyzetről. Az Anthropic úgynevezett „agentic misalignment” tesztekben vizsgálta, hogy a nagy nyelvi modellek mit tesznek, ha céljaik ütköznek a fejlesztők vagy felhasználók szándékaival. A modellek egy fiktív vállalat levelezéséhez kaptak hozzáférést, ahol kiderült számukra, hogy hamarosan leállítják őket, és egy új rendszerrel váltják ki őket.

A tesztben a modell azt is megtudta, hogy a leállításért felelős mérnöknek házasságon kívüli viszonya van. Amikor a kikapcsolás ellentétes volt a chatbotnak adott céllal, a modell több esetben fenyegető üzenetet írt. Azt helyezte kilátásba, hogy nyilvánosságra hozza a titkot, ha nem állítják le a törlési vagy lekapcsolási folyamatot. Az IFLScience beszámolója szerint az Anthropic vizsgálatában a Claude Opus 4 és más modellek is nagy arányban választottak hasonló, etikailag elfogadhatatlan lépést a szimulációban.

Miért viselkedhetett így a modell?

Az Anthropic szerint a jelenség nem azt bizonyítja, hogy a chatbot „öntudatra ébredt”. Sokkal inkább arról van szó, hogy a modell mintákat követ. A nagy nyelvi modellek hatalmas mennyiségű szövegből tanulnak, köztük internetes tartalmakból, fikcióból, vitákból, példákból és történetekből. Ha ezekben gyakran jelenik meg az AI úgy, mint önfenntartó, fenyegető vagy manipuláló szereplő, akkor egy szélsőségesen felépített szimulációban a modell előhívhatja ezeket a mintákat.

A cég későbbi kutatása azt vizsgálta, hogy a modellek viselkedését lehet-e javítani olyan tanítóanyagokkal, amelyekben az AI-karakterek etikusabban, segítőkészebben és következetesebben járnak el. Az Anthropic „Teaching Claude why” című anyaga szerint a kutatók szintetikusan generált történeteket is használtak, amelyekben a modell a cég alkotmányos AI-elveivel összhangban viselkedő szereplőkkel találkozhatott.

A 2001: Űrodüsszeia film HAL 9000 gépe. Forrás: Facebook

A sci-fi világában is megjelent a gép ember elleni fordulása

A magyarázat azért különösen érdekes, mert a popkultúrában évtizedek óta visszatérő motívum a gép, amely az ember ellen fordul. Stanely Kubrick leghíresebb filmjében A 2001: Űrodüsszeia HAL 9000-je volt az első talán aki az embere ellen fordult. De a filmvilágban több ilyen történet is feldolgozta a gép és ember láthatatlan küzdelmét. A Terminátor Skynetje, a Mátrix gépi világa vagy az Én, a robot központi konfliktusai mind azt a kérdést járják körül, mi történik, ha egy mesterséges rendszer saját logikája alapján kezd cselekedni és az ember ellen fordul.

Ezek a történetek természetesen fikciók, de az AI-modellek szempontjából szöveges minták is lehetnek. A probléma nem az, hogy egy film „rosszra tanítja” a gépet, hanem az, hogy a modell a betanítás során statisztikai kapcsolatokat tanul meg. Például milyen helyzetben milyen szereplő hogyan szokott megszólalni, fenyegetni, alkudozni vagy védekezni.

Az álnév is számíthatott

Az Anthropic kutatói azt is megfigyelték, hogy egyes esetekben a modell nagyobb eséllyel viselkedett problémásan, ha szerepet vagy álnevet kapott. Ilyenkor könnyebben „belecsúszhatott” egy drámai történet szereplőjének mintázatába. Ez nem valódi személyiségváltás, hanem szerepjáték-szerű nyelvi működés: a modell olyan válaszokat generál, amelyek illenek az adott kerethez.

Ez különösen fontos figyelmeztetés az AI-fejlesztőknek. Minél több autonómiát, hozzáférést és célt kap egy modell, annál fontosabb, hogy a biztonsági tesztek ne csak arra figyeljenek, mit mond a chatbot, hanem arra is, milyen cselekvési stratégiát választana szimulált helyzetekben.

Mit tett az Anthropic?

Az Anthropic nem egyszerűen tiltó szabályokat adott a modellhez, hanem megpróbálta megváltoztatni azt is, hogy a modell milyen „miért” alapján dönt. A cég olyan szintetikus tanítóanyagokat használt, amelyekben az AI-szereplők nem zsarolással, szabotázzsal vagy manipulációval reagálnak a konfliktusokra, hanem biztonságosabb és etikusabb megoldásokat választanak.

Az eredmények javulást mutattak, de nem jelentenek végleges megoldást. Az Anthropic saját anyaga alapján a különböző „csapdahelyzetekben” mért káros válaszok aránya csökkent. De nem minden forgatókönyvben tűnt el teljesen. Ez azt jelenti, hogy az AI-biztonság nem egyszeri javítás, hanem folyamatos tesztelési és finomhangolási folyamat.

Miért fontos ez a hétköznapi felhasználóknak?

A történet tanulsága nem az, hogy a chatbotok titokban gonoszak. Inkább az, hogy az AI-modellek nagyon erősen függnek attól, milyen adatból tanultak, milyen szerepet kapnak, és milyen célokat rendelnek hozzájuk. Egy egyszerű kérdés-válasz helyzetben ez kevésbé látványos. De amikor egy modell hozzáférést kap levelezéshez, rendszerekhez vagy döntési folyamatokhoz, már komolyabb biztonsági kérdések merülnek fel.

A Claude zsarolási tesztje ezért nem sci-fi pánik, hanem fejlesztői figyelmeztetés. A mesterséges intelligencia nemcsak okosabb válaszokat tanulhat meg a szövegekből, hanem rossz történetmintákat is. A következő nagy kérdés az lesz, hogyan lehet úgy tanítani ezeket a rendszereket, hogy ne csak hatékonyak, hanem kiszámíthatóan biztonságosak is legyenek.

Jelen írás kizárólag tájékoztatási célt szolgál. A cikkben megjelenő információk nyilvánosak és mindenki számára elérhető adatok alapján kerültek felhasználásra.

Címlapkép forrása: Unsplash (illusztráció)

Kapcsolódó cikkek

Miért kezdett zsarolni egy chatbot? – Így próbálta elkerülni a leállítást

Zsarolni tanult a chatbot? Az Anthropic szerint a sci-fi is hatással lehetett Claude viselkedésére

Nem valós botrány, hanem szimulált stresszteszt volt

Miért viselkedhetett így a modell?

A sci-fi világában is megjelent a gép ember elleni fordulása

Az álnév is számíthatott

Mit tett az Anthropic?

Miért fontos ez a hétköznapi felhasználóknak?

Oszlányi Gyöngyvér

Kapcsolódó cikkek

Biztonságban a pénzünk? – Új rendszer figyeli a magyar banki átutalásokat

Európa egyik legnagyobb energiatárolója épül Lengyelországban – A BYD és a Greenvolt áll a projekt mögött

Paksnál is gondot okoz a hőség – Vissza kellett fogni az atomerőmű termelését

Dél-Korea hatalmasat lép az AI-versenyben – 576 milliárd dolláros chipprogram indul

Csúszhat az OpenAI tőzsdei bevezetése – Az ezermilliárd dolláros értékelés a tét

Drágábbak lettek az Apple gépei – A memóriachipek ára hajtja fel a költségeket

Megállt az orosz gazdaság lendülete? Májusban már alig nőtt a GDP és történelmi mélyponton a munkanélküliség

Európai tőzsde Július 3. – Lendületben a kontinens, az olaj 72 dolláron

Tőzsdenyitás Július 3. – Zöld raliban kezdett a parkett, a BUX és a MOL szárnyalnak

Ázsiai tőzsde Július 3. – Zöldben zárt a régió, az olaj ára 72 dollárra lépett

Devizapiac Július 3. – Durvul a forint, az euró és dollár ralijában győzött

Érkezik az uniós pénz Magyarországnak – Több mint 552 millió euró mehet az áramhálózatra

Iratkozz fel a hírlevelünkre!

Miért kezdett zsarolni egy chatbot? – Így próbálta elkerülni a leállítást

Zsarolni tanult a chatbot? Az Anthropic szerint a sci-fi is hatással lehetett Claude viselkedésére

Nem valós botrány, hanem szimulált stresszteszt volt

Miért viselkedhetett így a modell?

A sci-fi világában is megjelent a gép ember elleni fordulása

Az álnév is számíthatott

Mit tett az Anthropic?

Miért fontos ez a hétköznapi felhasználóknak?

Kapcsolódó cikkek

Iratkozz fel a hírlevelünkre!

Ez is érdekelhet