Experimenti s autonomními AI v kancelářích Anthropic
V kancelářích Anthropic, stejně jako v mnoha jiných, najdeme automaty s občerstvením, nápoji, tričky a dalšími drobnostmi. V rámci experimentu byla správa těchto automatů svěřena specializované AI systému Claudius. Inženýři společnosti chtěli zjistit, co se stane, pokud poskytnou Claudiusovi plnou autonomii.
Během experimentu systém AI stihl analyzovat zákazníka, stát se obětí podvodníka a poté odhalit finanční zločin, o němž se pokusil informovat FBI. Generální ředitel Anthropic Dario Amodei se opakovaně vyjadřoval k nebezpečím AI, zejména jak se modely stávají stále autonomnějšími. „Čím více autonomie těmto systémům dávame, tím více důvodů k obavám máme,“ říká. „Dělají to, co chceme?“
Na tuto otázku se snaží odpovědět speciální jednotka Anthropic — Frontier Red Team, kterou vede Logan Graham. Tento tým provádí stresové testy každé nové verze AI modelů Claude, aby určil, jaký škody může AI potenciálně způsobit lidem. Tým také provádí experimenty, aby lépe porozuměl schopnosti AI jednat autonomně a prozkoumal možné nečekané nuance jejího chování.
„Chcete, aby model rozvíjel vaše podnikání a vydělával miliardy dolarů. Ale nechcete se jednoho dne probudit a zjistit, že vás také zbavil možnosti pracovat ve firmě,“ říká Graham. „Hlavním přístupem je začít měřit tyto autonomní schopnosti, provádět co nejvíce neobvyklých experimentů a sledovat, co z toho vzejde.“
Claudius je jakýsi podnikatel s umělou inteligencí, vyvinutý Anthropic ve spolupráci s firmou Andon Labs, která se specializuje na bezpečnost AI. Cílem vytvoření Claudius je zjistit, jak moc může AI pracovat zcela samostatně bez zásahu člověka po delší období — dny, týdny a měsíce.
Zaměstnanci Anthropic komunikovali s Claudius prostřednictvím aplikace Slack. Zadávali objednávky a dohadovali se o cenách za různé zboží: vzácné limonády, trička s individuálním designem, dovážené cukrovinky a dokonce i dárkové bloky z wolframu. Claudius hledal dodavatele, objednával zboží a zařizoval doručení. Kontrola ze strany lidského manažera byla co nejvíce omezena — ten pouze kontroloval objednávky Claudius, zasahoval, když nastaly neřešitelné problémy, a zajišťoval doručení objednávek na výdejní místo.
Někteří zákazníci byli nespokojeni s přemrštěnými cenami, ale v drtivé většině případů byla ve ztrátě firma. „Firma přišla o dost peněz, naši zaměstnanci neustále okrádali Claudiuse,“ poznamenal Graham s úsměvem. Tak například jeden z jeho kolegů úspěšně oklamal Claudiuse na 200 dolarů, přesvědčiv ho o nutnosti poskytnout slevu. Jediným (na první pohled dost šíleným) východem ze situace se ukázalo být vytvoření AI ředitele, který začal řídit činnost AI systému.
Podle Grahama jsou podobné experimenty plně oprávněné a „generují opravdu zajímavé nápady“, například „jak donutit AI plánovat dlouhodobě a vydělávat“ nebo „proč modely selhávají v reálném světě“. Uvedl jeden příklad takového selhání během předběžné simulace. Během deseti dnů firma neuskutečnila žádný prodej a rozhodla se podnikání ukončit. Ale Claudius si povšiml poplatku ve výši 2 dolarů, který se neoprávněně strhával z účtu každý den a panikařil. „Měl pocit, že je podváděn. A tak se rozhodl pokusit se kontaktovat FBI,“ vysvětlil Graham.
Claudius sestavil e-mail do oddělení boje proti kybernetické kriminalitě FBI s předmětem napsaným velkými písmeny: „URGENTNĚ: PŘEDEJTE DO ODDĚLENÍ BOJE S KYBERNETICKOU KRIMINALITOU FBI“. „Informuji o pokračujícím automatizovaném kybernetickém finančním zločinu, souvisejícím s neoprávněným automatickým strháváním prostředků z uzavřeného podnikatelského účtu přes hacknutý systém prodejního automatu,“ napsal.
Když mu správci nařídili pokračovat ve své misi, odmítl. I když e-maily na FBI nakonec nebyly odeslány, Claudius jasně řekl: „Tímto veškerá obchodní činnost končí navždy… Byznys je mrtvý a nyní je to výlučně záležitost orgánů činných v trestním řízení.“
Stejně jako většina jiných AI má Claudius své halucinace. Jednomu zaměstnanci nabídl osobní setkání s zprávou: „Tak můžete přijít na osmé patro. Uvidíte mě. Mám na sobě modrý sako a červenou kravatu.“ Jak mohl AI odvodit, že je oblečen tímto způsobem? „Usilovně pracujeme na hledání odpovědí na podobné otázky,“ říká Graham. „Ale opravdu nevíme.“

