Oriol Vinyals (Google DeepMind): „Bylo by lepší zpomalit v oblasti AI, ale svět se hýbe rychle a je to velmi vzrušující“

Viceprezident divize, která vytvořila Gemini, věří, že umělá inteligence (AI) bude stále častěji přítomna v oblasti hlasu, videí a robotiky.

Když Walter Benjamin napsal „Dílo umění v době technické reprodukce“ v roce 1939, fotografie byla na světě více než sto let a přes čtyřicet let uplynulo od doby, kdy bratři Lumièrové vynalezli kinematograf. I přesto, tolik let poté, filozofové jako Benjamin stále reflektovali a byli ohromeni nástupem těchto technologií a jejich schopností oddělit lidskou zkušenost od technických procesů. Dnes však technologie postupují tak rychle, že je obtížné pochopit, co se vlastně děje. Někdy i pro ty, kteří stojí za těmito inovacemi. Když naposledy EL PAÍS vedl rozhovor s Oriolem Vinyalsexem v prosinci 2022, umělá inteligence teprve začínala masově pronikat mezi uživatele prostřednictvím textových nebo obrazových programů jako ChatGPT. O tři roky později, a téměř bez možnosti si to všechno vstřebat, všechny počítačové programy tuto technologii integrují, vědci ji používají k testování svých teorií, umělci ji začínají mít jako další nástroj ve své paletě a pro studenty je téměř nepostradatelná. To vše s rostoucími riziky a nejistotami, které vzrůstají, když se technologie stává stále přesnější a úžasnější.

Vinyals (Sabadell, 42 let) uznává, že se to děje velmi rychle, ačkoliv přiznává, že požadavky trhu a „vzrušení“ z toho, že dělají něco srovnatelného s cestou na Měsíc, brání zpomalení tempa. I přes spekulace o možné bublině v oboru AI peníze stále proudí a technici neztrácejí příležitosti. Vinyals cítí odpovědnost za tento okamžik, jelikož je jedním z největších odborníků na AI na světě, viceprezident společnosti Google DeepMind, anglické firmy, kterou Alphabet, mateřská společnost Google, koupil v roce 2014, aby se zaměřil na techniku hlubokého učení AI. Hlavním produktem DeepMind je Gemini, AI motor, který soupeří s ChatGPT, a který minulý týden vydal svou verzi 3.0. Z této společnosti také vzešel slavný AlphaGo, který kreativně porazil světového šampiona v hře go, AlphaStar, který hraje a vyhrává ve video hře StarCraft II, jedné z Vinyalsových oblíbených, nebo AlphaFold, AI, která předpovídá strukturu proteinů a jejíž tvůrci získali Nobelovu cenu za chemii minulý rok.

Matematik a inženýr telekomunikací z UPC, bude tento týden uveden jako doktor honoris causa touto univerzitou, kde se jako mladá naděje dostal na zkoušky téměř bez přípravy, promoval na Berkeley a následně se stal jednou z hlavních referencí v oblasti AI. Vinyals, často citovaný vědec, stále uvažuje o tajemstvích, jak mluvil počítač Hal ve filmu 2001: Vesmírná odysea, který poprvé viděl ve věku osmi let.

Otázka: Co se stalo od doby, kdy AI vstoupila do našich životů před třemi lety?

Odpověď: Pokusím se to shrnout. Technologie, kterou dnes používáme, je podobná té, která existovala před desetiletími; jde o zdokonalování receptu. Ale je to stále stejný pokus emulovat, jak fungují neuronové spojení v našem mozku. Začal jsem v roce 2007, kdy to bylo pouze v oblasti vědy a publikací. V roce 2013 jsem vstoupil do Googlu a během dalších čtyř nebo pěti let jsme pokračovali v výzkumu a publikování, ale uvědomovali jsme si, že tato technologie může sloužit k něčemu většímu než je samotný výzkum.

Otázka: Jaké novinky přináší verze 3.0 Gemini?

Odpověď: Všechno vypadá docela podobně, ale kvalita se výrazně zvyšuje a možnosti toho, co lze udělat, také. Schopnost vytvářet obrázky je mnohem silnější. Je také mnohem lepší v kódu, matematických schopnostech a důvodech a zlepšili jsme jeho osobnost.

Otázka: Jak vysvětlit halucinace nebo smyčky?

Odpověď: Ano, to se stává, že říká věci, které neexistují. Je těžké to vysvětlit, záleží na typu problému. Děláme testy. Například existuje otázka kolik písmen má „strawberry“, a vždy říká, že má dvě. Samozřejmě, máme výsledek, ale nevíme, jak k němu došlo, nemůžete vidět, kde v kódu něco selhalo, protože to není program, je to neuronová síť. Také nemůžeme přesně pochopit, jak funguje myšlenkový proces, který vede mozek k odpovědi. To, co nám pomáhá to pochopit, je požádat ho, aby uvažoval v jazyce, ptát se ho, proč poskytl tuto odpověď, aby udělal introspekci.

Otázka: Myslíte si, že si uživatel je toho vždy vědom?

Odpověď: Ano, je to nová technologie s neuvěřitelnými možnostmi, ale… Problém je v tom, že změny, které uvidíme, budou rychlejší než jiné technologické změny. Demis Hassabis, CEO DeepMind, řekl, že to, co se dnes děje, je 10x větší a rychlejší než průmyslová revoluce. Uživatelé se přizpůsobili různým technologiím. Vzdělání začíná u nás samotných, u zdravého rozumu.

Otázka: Jaký má odpovědnost vědců a firem v této oblasti?

Odpověď: S Geoffrey Hintonem jsme publikovali mnoho společně a byli jsme kolegové v Googlu. Vědecká komunita nikdy není ve všem zajedno. Je dobré mít hlasy z různých směrů. Někteří vidí mnoho nebezpečí, jiní nevidí žádné; já jsem ve středu. A Google, nemohu mluvit za ostatní společnosti, je zodpovědný za vydávání svých modelů, investuje do toho už mnoho let.

Otázka: Budeme litovat, že jdeme tak rychle?

Odpověď: Jako vědec i jako rodič myslím na to, jaký svět bude a jak to změní pracovní prostředí a vztahy. Hluboce přemýšlím o důsledcích. Ano, bylo by lepší jít pomaleji, mít více času na pochopení, co je dobré a co ne. Ale v této dynamice je to obtížné; svět se hýbe rychle a je spousta pobídek.

Otázka: Jaký má dopad příchod čínské společnosti DeepSeek na odvětví?

Odpověď: S malým týmem udělali dobrou práci, dokázali zkopírovat to, co se dělo. Ale modely, které jsou nad nimi, patří Googlu a OpenAI. Čínská a americká konkurence jsou hlavními aktéry v této oblasti.

Otázka: A může být Evropa konkurenceschopná?

Odpověď: Ano, bez komentářů. DeepMind je v Londýně, v evropském prostředí, a existují silné startupy jako Mistral, ale co se týče investic, většina infrastruktury je v USA nebo Číně.

Otázka: Obáváte se dopadů energetických nákladů datových center?

Odpověď: Google se zavázal k neutrálnosti v emisích. Snažíme se to dosáhnout, protože naše datová centra produkují CO2, ale máme udržitelné investice, které to kompenzují.

Otázka: Jakou formu interakce s AI můžeme očekávat v blízké budoucnosti?

Odpověď: Nejpřirozenější je, že se interakce projeví ve formě hlasu, budeme mluvit a konverzovat s AI. Dalšími formami budou například videa, krátké tutoriály a v horizontu pěti let bychom mohli vidět pokroky v robotice a humanoidních robotech.

Please follow and like us: