Analýza: Texty generované umělou inteligencí jsou často předvídatelnější než lidské psaní
Už uplynuly tři roky od chvíle, kdy byl ChatGPT uveden na trh, a jeho přítomnost narušila každé odvětví, kde je psaní a čtení součástí. Skoro okamžitě po jeho uvolnění začaly snahy o detekci jeho stop v textech. Metody detekce lze rozdělit na místní, které se snaží zjistit, zda je daný text generován AI, a globální, které nepracují na úrovni jednotlivého článku, ale spíše hledají jazykové trendy v textech generovaných AI.
Některé z jasných způsobů, jak poznat, že článek byl vygenerován AI, zahrnují vymyšlené odkazy nebo náhodnou zahrnutí frází jako „Jako AI jazykový model“. Většinou je však třeba použít sofistikovanější metody. Některé z těchto metod jsou založeny na statistickém měření nazývaném perplexity, což v podstatě měří, jak překvapivá je sekvence slov. Texty generované AI mají tendenci mít nižší perplexity, což znamená, že jsou předvídatelnější než texty psané lidmi.
Při snaze detekovat přítomnost AI v textech se globální přístup zaměřuje na hledání slov, frází nebo syntaktických vzorců spojených s psaním generovaným AI. Existují dva hlavní způsoby, jak to provést: porovnáním textů napsaných před a po roce 2022, hledáním podivuhodných skoků v používání konkrétních slov či frází, a/nebo porovnáváním textů, o nichž víme, že byly napsány lidmi, s texty, které víme, že byly generovány AI.
Někdy mohou dramatické nárůsty v popularitě určitých slov vysvětlit světové události, například slova související s pandemií jako „omicron“. Jindy ale neexistuje zřejmé vysvětlení, což naznačuje, že by ChatGPT nebo jiné jazykové modely mohly hrát roli. Například fráze „vstávám, abych mluvil“ používaná americkými politiky zaznamenala znatelný nárůst popularity mezi britskými politiky, jak ukazuje analýza nedávných projevů v britském parlamentu. Možná nejznámějším objevem této linie výzkumu je zjevná slabost ChatGPT pro slovo „prozkoumat“ v odborném psaní.
Jediným problémem při pokusu o pochopení vlivu ChatGPT na psaní je, že se snažíme pochopit pohyblivý cíl. Modely, na nichž ChatGPT funguje, se mění každých pár měsíců a společnosti, které tyto modely vyvíjejí, se neustále snaží, aby vypadaly více jako lidé. Takže pokud je „prozkoumat“ znakem textu generovaného AI, AI modely mohou být upraveny tak, že reakce obsahující slovo „prozkoumat“ již nebudou preferovány; nebo uživatelé ChatGPT mohou ve svých pokynech uvést, aby se slovo vyhnuli.
Podle nedávné studie Washington Post, která analyzovala více než 300 000 zpráv ChatGPT od června 2024 do července 2025, se ukazuje, že používání slova „prozkoumat“ klesá. Zároveň generativní AI mění lidské psaní. Mnoho lidí je k AI podezřelých a může se vyhýbat slovům, o kterých ví, že jsou s ní spojena, při psaní. Jiní mohou zjistit, že tato slova používají častěji, protože jsou jemně ovlivněni články generovanými AI, které čtou. Není jednoduché oddělit tyto různé faktory.
Ohromujících 70 % všech analyzovaných zpráv ChatGPT obsahovalo emoji, přičemž přibližně třetina obsahovala ✅.
Jaká jsou tedy nová oblíbená slova ChatGPT? Podle studie Washington Post jsou novými favority „jádro“ a „moderní“. Emojis jsou také populární, zvláště emoji mozku 🧠 a kontrolního znaku ✅. Ohromujících 70 % všech analyzovaných zpráv obsahovalo emoji, přičemž asi třetina obsahovala ✅. Fráze „nejen X, ale také Y“ je na vzestupu, stejně jako neformální zkrácení, jako je „je to“ a „toto jsi“. Punctuation symbol (—) nadále roste na popularitě.
Jak tedy můžeme s jistotou vědět, že něco bylo napsáno člověkem? Můžeme pouze pokračovat v hloubení do základního výzkumu tohoto dokonale moderního problému ✅🧠.

