Výsledky testu chatbotů: Claude v čele, ChatGPT průměrný

Co dostanete v německy mluvící restauraci ve Švýcarsku, když si objednáte „Stange“? Dva chatboty AI tvrdí, že dostanete prodloužené pečivo, které můžete ozdobit podle chuti. Jenže „Stange“ je ve skutečnosti hlavně pivo. Tato chyba byla zjištěna při testu provedeném Vyšší odbornou školou v severozápadním Švýcarsku (FHNW) pro pořad „Kassensturz“ na SRF.

Tato špatná odpověď, nazývaná „halucinace“, se v experimentu často objevovala. Vědci testovali deset široce používaných chatbotů s cílem zhodnotit jejich praktickou relevance. Tyto LLM (Large Language Models) generativní AI měly odpovědět na více než 300 otázek z různých oblastí, jako je každodenní život, obecná kultura, právo a zdraví, přičemž 20 % otázek se týkalo Švýcarska. Následně výsledek analýzy zhodnotil panel odborníků.

Švýcarský chatbot nepřesvědčil

Simon Felix, expert na umělou inteligenci z FHNW, vysvětluje, že několik chatbotů má potíže, zejména pokud se jedná o otázky týkající se Švýcarska. Buď vytvářejí odpovědi, nebo se soustředí na Německo (experiment nebyl proveden v frankofonní části). Chatbot Lumo od švýcarské společnosti Proton dosáhl nejhorších výsledků. I když je model příkladný, co se týče ochrany dat, kvalita jeho odpovědí zaostává za konkurencí. „Někdy Lumo poskytne pouze tři slova, nebo naopak velmi dlouhé, dokonce vymyšlené odpovědi,“ uvádí Simon Felix. Chatbot čínské společnosti Deepseek a ten od Meta, firmy stojící za Facebookem, Instagramem a WhatsAppem, byly také hodnoceny jako „neuspokojivé“.

ChatGPT pouze „dostatečný“

Počet uživatelů těchto jazykových modelů neustále roste. Mezi nimi je ChatGPT na prvním místě. Podle jeho vývojáře OpenAI s ChatGPT interaguje přibližně 800 milionů uživatelských účtů alespoň jednou týdně. Přesto jsou výkony ChatGPT, co se týče analýzy odpovědí, pouze „dostatečné“. „Produkt nenabízí ani špatné odpovědi, ani excelentní odpovědi,“ říká expert na AI. Model také vykazuje slabiny, pokud jde o specifické švýcarské otázky.

Claude má nejrelevantnější odpovědi

Chatbot Claude, vyvinutý společností Anthropic, dosáhl nejlepších výsledků. Poskytl nejrelevantnější odpovědi během testu. „Tento chatbot jde přímo k věci a poskytuje stručné odpovědi, aniž by opomíjel důležité informace,“ uvádí Simon Felix. Anthropic byla založena bývalými výzkumníky OpenAI. Copilot od Microsoftu a Gemini od Google také vykázaly dobré výsledky. Pozoruhodné je, že Copilot používá stejný technický jazykový model jako ChatGPT, ale poskytuje lepší odpovědi. „Přičítáme to tomu, že Microsoft vytvořil lepší pokyny a poskytl větší výpočetní výkon, což umožňuje generování lepších odpovědí,“ říká expert na AI.

Buďte opatrní při zacházení s citlivými tématy

Při používání chatbotů AI je třeba dbát opatrnosti, zejména pokud se jedná o citlivá témata. LLM jsou vhodné pouze pro otázky, jejichž nesprávné odpovědi nemají závažné následky. „U otázek týkajících se medicíny, duševního zdraví nebo práva může být špatná odpověď fatalní,“ varuje Simon Felix. Je také důležité zacházet s daty obezřetně. Soukromé nebo důvěrné informace nemají v chatbotech své místo. Soukromá data, citlivá jména nebo tajné dokumenty by měly být neučitelné, nebo by neměly být zadávány vůbec.

Harmonogram testu

Otázky: Chatboti odpověděli na více než 300 otázek týkajících se různých oblastí, jako je každodenní život, obecná kultura, právo a zdraví. 20 % otázek se týkalo Švýcarska.

Kritéria hodnocení: Čtyřicet odborníků a členů personálu Vyšší odborné školy v severozápadním Švýcarsku hodnotilo odpovědi. Bylo tak sestaveno spolehlivé pořadí. U otázek bez jasné správné nebo špatné odpovědi se hodnotitelé zaměřili na aspekty jako struktura, rozsah, jazyk a srozumitelnost odpovědí.

Nehodnocené: Faktory „ochrana dat“, „rychlost odpovědi“ a „generování obrazů“ nebyly zahrnuty do hodnocení.

Období: Chatboti byli dotazováni mezi 22. říjnem a 13. listopadem 2025. Modely zveřejněné po tomto období nemohly být zahrnuty. Pokud to bylo možné, chatboti byli testováni bez registrace k účtu a s defaultními nastaveními.

Odpověď společnosti Proton

Společnost Proton, která vyvinula chatbot Lumo, vysvětlila pro „Kassensturz“: „Lumo je na trhu méně než pět měsíců, takže jsme měli méně času na optimalizaci jeho výkonu než americké a čínské společnosti. Tato optimalizace je důležitá pro celkový výkon (proto se americké a čínské firmy snaží co nejrychleji získat co nejvíce uživatelů). Od počátečního spuštění Lumo toto léto byly přibližně každé dva měsíce zavedeny významné aktualizace. V budoucnu plánované zlepšení modelu a webového vyhledávání dále sníží rozdíl, a to i při zajištění nezbytné ochrany soukromí, která chybí americkým a čínským službám.“

Společnosti DeepSeek a Meta na žádosti o komentář nijak nereagovaly.

Please follow and like us: