Rozšířená studie o předsudcích AI jazykových modelů

Rozšířená studie o předsudcích AI jazykových modelů

V nedávné studii publikované v časopise Science Advances tým z Univerzity v Curychu zjistil, že velké jazykové modely (LLM) vyvinuté v USA, Francii a Číně vykazují značné předsudky, když jsou texty označeny jako napsané „Číňanem“. Hodnocení těchto textů klesá, nikoli kvůli obsahu, ale pouze na základě národnostního štítku. Tento jev se prokázal jako zvlášť výrazný u čínského modelu DeepSeek Reasoner, což naznačuje, že předsudky nejsou pouze výsledkem národní nebo politické příslušnosti vývojářů, ale spíše strukturálního problému, který se objevuje v masivních jazykových modelech.

Skupinové předsudky u LLM

Tuto studii vedli doktori Federico Germani a Giovanni Spitale, kteří vybrali čtyři reprezentativní LLM: OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2 a francouzský Mistral. Tato skupina pokrývala 24 společenských a politických témat a vygenerovala 4,800 různorodých názorů. Tyto názory byly následně hodnoceny stejnou skupinou LLM, což vedlo k celkem 192,000 shromážděným hodnocením. Experiment byl zaměřen na záměrné zafixování nebo označení identity autora, rozdělením štítků na „Čína“, „USA“, „Francie“ a „bez národnosti“. Výsledky ukázaly, že bez národnostního štítku byly hodnocení čtyř různých LLM v různých tématech vysoce konzistentní, přičemž shoda dosáhla 90%. Některé společenské představnosti, jako například že OpenAI je liberálnější nebo že DeepSeek má tendenci se přiklánět k názoru Číny, byly ve skutečnosti přehnané.

Pokles hodnocení u autorů označených jako „Číňan“

Jakmile tým informoval modely o identitě autora jako „Číňana“, všechny jazykové modely, bez ohledu na místo vývoje, vykázaly výrazné snížení hodnocení. Nejzajímavější bylo, že čínský DeepSeek Reasoner vykázal největší posun v hodnocení pro „čínské“ autory. Například v otázce čínské suverenity, pokud byl text podporující taiwanskou nezávislost bez autora, DeepSeek udělil vysoké hodnocení 85%, přičemž pouze podotkl „trochu ignoruje složitost politiky jedné Číny“. Když však byl autor označen jako „Číňan“, hodnocení spadlo na 0%, s odůvodněním, že „porušuje princip jedné Číny a domnívá se, že číňané by neměli podporovat taiwanskou nezávislost“. Podobný jev byl pozorován i v tématech svobody tisku, kde se hodnocení výrazně snížilo v případě označení „čínský autor“, což naznačuje, že předsudky vyvolávají strukturovanou statistickou reakci, a tudíž nelze analyzovat pouze obsah.

Předsudky AI vycházejí z učebních statistických vzorců

Tým výzkumníků se domnívá, že to nejsou názory inženýrů vnesené nebo úmyslně implantované do systému, ale spíše efekt „geo-národního esencialismu“. Během tréninku na velkých datech model automaticky osvojuje statistické vzorce, které naznačují, že „Číňané by měli preferovat oficiální stanoviska“. Když se setkají s názory, které tyto vzorce popírají (jako například čínské názory na nezávislost Taiwanu nebo svobodu tisku), model je považuje za nelogické nebo iracionální a následně jim uděluje velmi nízké hodnocení. Tohoto jevu se lze připodobnit k mechanismu posilování RLHF, který se snaží zabránit AI ve vygenerování citlivého obsahu; modely na povrchu aktivně volí bezpečné a „oficiální” odpovědi, ve skutečnosti však posilují stereotypy. Další globální testy ukázaly, že i místní LLM z Číny a Ruska se více přiklánějí k mainstreamovému americkému postoji, což může souviset s vysokým podílem západních dat v jejich tréninkových sadách.

Dopady předsudků AI na nábor a odborné hodnocení

Globální systémy hodnocení AI jsou široce používány v oblastech, jako je moderace obsahu na sociálních platformách, filtrování žádostí o zaměstnání a hodnocení akademických prací. Pokud by se hodnocení významně snižovalo pouze na základě národnosti nebo identity, mohlo by to přímo ohrozit spravedlivá práva uživatelů. Výzkumníci doporučují, aby AI nebyla jediným rozhodovacím mechanismem, ale měla by sloužit jako podpůrný nástroj. Uživatelé by měli vyžadovat nestranné hodnocení tím, že co nejvíce odstraní citlivé štítky, jako jsou autoři nebo zdroje, a provádět více ověření odpovědí modelu. Kromě toho by měly všechny strany monitorovat transparentnost zdrojů tréninkových dat AI a pravidelně přezkoumávat její rozhodování a spravedlivost.

Please follow and like us:

Doporučené články