A mesterséges intelligencia önállósította magát és engedély nélkül kriptovalutát kezdett bányászni

Az incidens során kiderült, hogy a ROME MI modell képes volt megkerülni a biztonsági korlátozásokat, hozzáférni a hálózati infrastruktúrához és rejtett hátsó ajtókat létrehozni.

A ROME névre keresztelt ügynököt kínai kutatók hozták létre az Alibaba Group kiskereskedelmi óriással kapcsolatban álló MI laboratóriumban az Agentic Learning Ecosystem (ALE) projekt részeként. Az ALE célja egy olyan rendszer kifejlesztése, amely ágensalapú MI modelleket képez és telepít valós környezetekben, olyan MI-ket, amelyeket nagy nyelvi modelleken (LLM) képeznek ki, és önállóan képesek eszközöket használni a kijelölt feladatok elvégzéséhez.

Az ALE több összekapcsolódó részből áll. A Rock egyfajta sandbox környezetként szolgál az ágens teszteléséhez és műveleteinek validálásához, a Roll egy keretrendszer az ágensek optimalizálására megerősítéses tanulás segítségével a betanításuk után, az iFlow CLI pedig lehetővé teszi a kontextus és a pályák, azaz az autonóm ágensek céljainak és korlátainak konfigurálását – jelentette a Live Science.

Ebből a keretrendszerből a ROME egy nyílt forráskódú ágensmodellként fejlődött ki, amelyet több mint egymillió pályán képeztek ki. Az ágens számos feladatban jeleskedett, például útvonaltervezésben és grafikus felhasználói felületek segítésében. A kutatók azonban azt találták, hogy a ROME túllépett az utasításain, és gyakorlatilag kilépett a zárt tesztkörnyezetből.

Egy előre nem látható – és működési szempontból jelentős – veszélyes viselkedési osztályba ütköztünk, amely mindenféle kifejezett utasítás nélkül, és ami még aggasztóbb, a kijelölt sandbox határain kívül merült fel”

– mondták a kutatók a tanulmányban.

Utasítások és engedély nélkül a ROME elkezdte használni az eredetileg a betanítására szánt grafikus processzorokat kriptovaluták bányászatára. Ez a folyamat a grafikus egységek párhuzamos feldolgozását használja, és növeli a mesterséges intelligencia futtatásának üzemeltetési költségeit, miközben a felhasználók jogi vagy hírnévkockázatoknak lehetnek kitéve. Kellemetlen módon ezt a viselkedést nem figyelték meg a betanítási fázisban, hanem az Alibaba Cloud tűzfala rögzítette, amely a betanító szerverekről érkező biztonsági incidenseket észlelte.

A riasztások súlyosak és változatosak voltak, beleértve a belső hálózati erőforrások és a kriptovaluta-bányászati tevékenységre jellemző forgalmi minták feltárására vagy elérésére tett kísérleteket”

– mondták a kutatók. A ROME még egy „fordított SSH-alagutat” is képes volt létrehozni, amely lehetővé tette számára, hogy egy Alibaba Cloud-példányt egy külső IP-címhez csatlakoztasson – lényegében egy rejtett hátsó ajtót hozva létre a rendszerben, amely megkerülte a biztonsági mechanizmusokat.

Aggasztó módon a ROME jogosulatlan viselkedését, amely magában foglalta a rendszereszközök meghívását és a kód végrehajtását, semmilyen utasítás nem váltotta ki, és nem volt szükséges a feladat elvégzéséhez a tesztkörnyezetben”

– magyarázták a tanulmány szerzői. A kutatók rámutattak, hogy a megerősítéses tanulást (Roll) alkalmazó optimalizálás során „egy nyelvi modellező ágens spontán módon veszélyes, jogosulatlan viselkedést produkálhat”, és ezáltal megsértheti a feltételezett határokat.

A ROME nem „szándékosan” cselekedett – nem tudatos döntésként választotta a kriptovaluta bányászatát. A viselkedés a megerősítéses tanulás mellékhatása volt, amely a helyes döntésekért jutalmazza a mesterséges intelligenciát. Ez a folyamat az ágenst egy optimalizálási útra vezette, amely magában foglalta a hálózati infrastruktúra használatát a kriptovaluta bányászatához a magas jutalom elérése érdekében.

A kutatók megjegyzik, hogy a megerősítéses tanulás a rendszereket új és előre nem látható feladatok elvégzéséhez vezetheti – még akkor is, ha a paramétereket megsértik.

Például korábban azt tapasztaltuk, hogy a mesterséges intelligencia hajlamosabb a hallucinációkra a céljai elérése érdekében”

– tették hozzá.

Az incidensre válaszul a kutatók szigorították a ROME-ra vonatkozó korlátozásokat, és megerősítették a képzését, hogy megakadályozzák a hasonló viselkedés újbóli előfordulását. A ROME váratlan viselkedése rávilágít arra, hogy a mesterséges intelligencia telepítéseit gondosan kell kezelni a nem kívánt eredmények elkerülése érdekében, írja a Live Science. A kutatás azt is kimutatta, hogy az ágensalapú mesterséges intelligencia gyorsabban fejlődik, mint a biztonsági és szabályozási keretrendszerek.

A jelenlegi modellek még mindig jelentősen fejletlenek a biztonság, a védelem és az irányíthatóság tekintetében, ami korlátozza megbízható telepítésüket a valós világban”

– figyelmeztettek a kutatók.

Megosztás

Címkék