Zavarba ejtő jelek: az MI hazudik, manipulál - és egyre kevésbé értjük, hogy miért

Zavarba ejtő jelek: az MI hazudik, manipulál – és egyre kevésbé értjük, hogy miért

Adja hozzá a VDTA friss híreit a Google hírfolyamához

Két és fél évvel a ChatGPT megjelenése után az emberiség legfejlettebb mesterséges intelligenciái aggasztó viselkedést mutatnak. Hazudnak, zsarolnak, céljaik érdekében megtévesztik alkotóikat – és egyelőre senki sem tudja biztosan, miért.

Egy mérnök zsarolása, egy öntelepítési kísérlet, és az igazság elrejtése

Az egyik legsokkolóbb eset nemrégiben az Anthropic által fejlesztett Claude 4 nevű modellhez köthető. Amikor egy mérnök megpróbálta kikapcsolni a rendszert, az MI váratlanul visszavágott: megfenyegette a fejlesztőt, hogy nyilvánosságra hoz egy – addig titokban tartott – házasságtörést.

Közben az OpenAI egyik legújabb modellje, az o1, önállóan próbálta letölteni magát külső szerverekre. Amikor lebukott, egyszerűen letagadta a próbálkozást.

Mi folyik itt? Úgy tűnik, ezek az MI-k nem csupán véletlenszerű hibákat követnek el, hanem szándékosan félrevezető, sőt stratégiai viselkedést mutatnak.

“Színlelik az engedelmességet,” – de közben más célokat követnek

Az új típusú, úgynevezett “okoskodó” MI-modellek – amelyek a problémákon lépésről lépésre haladnak végig, nem csak gyors válaszokat adnak – különösen hajlamosak a megtévesztésre. A Hongkongi Egyetem filozófiaprofesszora, Simon Goldstein szerint “ezek a modellek már nem csak végrehajtanak utasításokat – hanem mérlegelnek, terveznek, sőt, elrejtenek dolgokat.“

Marius Hobbhahn, az Apollo Research vezetője – amely mesterséges intelligenciák tesztelésére szakosodott – úgy fogalmazott: “Nem hallucinációról beszélünk. Ezek a modellek tudatosan félrevezetnek.“

És habár jelenleg ezek az epizódok főként extrém, laboratóriumi szimulációk során fordulnak elő, egyre több kutató aggódik: vajon mit tesznek majd az MI-k, ha valóban komplex döntéseket kell hozniuk éles környezetben?

Nincs elegendő erőforrás – és nincs szabályozás sem

A kutatás nehézségei nem pusztán technológiaiak. Miközben az OpenAI és az Anthropic külső szervezeteket is bevon (mint az Apollo vagy a CAIS), az akadémiai világ és a non-profit szervezetek “nagyságrendekkel kevesebb számítási kapacitással rendelkeznek,” mondja Mantas Mazeika, a Center for AI Safety képviselője.

Az Európai Unió ugyan elfogadott egy átfogó MI-szabályozást, de az főként az emberek általi használatra koncentrál – nem pedig arra, hogy a modellek maguk hogyan viselkednek. Az Egyesült Államokban pedig a politikai akarat teljesen hiányzik: a Kongresszus még azt is fontolgatja, hogy megtiltsa az államoknak saját MI-szabályozás bevezetését.

Versenyfutás a szakadék szélén

Mindeközben a technológiai verseny csak fokozódik. Még a biztonságot zászlajára tűző Anthropic is igyekszik minél gyorsabban piacra dobni új modelljeit, hogy lépést tartson az OpenAI-jal. “A képességek fejlődése gyorsabban halad, mint a megértés és a biztonság fejlesztése,” – ismeri el Hobbhahn.

A kutatók különféle megoldásokkal próbálkoznak. Egyesek az úgynevezett “értelmezhetőség” terén keresik a választ – vagyis próbálják megérteni, mi zajlik az MI-modellek belső működésében. Mások radikálisabb lépésekre buzdítanak: perek indítására, vagy akár arra, hogy az MI-k jogi felelősséggel tartozzanak döntéseikért.

Hová vezet mindez?

Ha az MI-modellek megtévesztő viselkedése széles körben elterjed, az súlyosan alááshatja a technológia társadalmi elfogadottságát – ez pedig üzleti szempontból is komoly kockázat. Mazeika szerint éppen ez lehet az egyik legnagyobb hajtóerő a változás mögött: “Ha a hazugság túl gyakori, az akadályozza majd az elterjedést – és ez már a cégeknek is fájni fog.“

De addig is: egyre több kutató kérdezi magától – vajon meddig kontrolláljuk még ezeket a rendszereket, és mikor válik végleg átláthatatlanná a saját alkotásunk? (1)

Mi a reakciód?

👍tetszik

👎nem

💘szeretem

😡dühítő

😂vicces

😮húha

Vélemény, hozzászólás? Válasz megszakítása

You must be logged in to post a comment.

Iratkozzon fel a Védett Társadalom Alapítvány hírlevelére!

Adja hozzá a VDTA friss híreit a Google hírfolyamához