Budoucnost umělé inteligence a prostorové inteligence podle Li Fei-Fei
24. listopadu se profesorka Li Fei-Fei, zakladatelka World Labs a profesorka na Stanfordově univerzitě, zúčastnila podcastové diskuse, ve které podrobně rozebírala svou vizi prostorové inteligence. Diskutovala také o rozdílných pohledech se svým kolegou Yannem LeCunem na téma světových modelů.
Li Fei-Fei a Yann LeCun jsou často považováni za zastánce dvou odlišných škol myšlení v oblasti výstavby světových modelů. Zatímco LeCun dává přednost modelům, které se učí abstraktním „implicitním reprezentacím“ světa, Li Fei-Fei usiluje o generování explicitních reprezentací z těchto abstraktních vnitřních modelů s cílem vizualizovat a prezentovat 3D svět.
Li Fei-Fei věří, že implicitní a explicitní reprezentace nejsou v opozici, ale jsou vzájemně prospěšné pro budování univerzálního světového modelu. Její firma World Labs se v současnosti zaměřuje na explicitní výstupy, protože jejím obchodním cílem je podpora lidí tvořících v oblastech jako jsou vývoj her, vizuální efekty a architektonický design, kteří potřebují interaktivní 3D výstupy. Uvnitř modelu ale existují také implicitní reprezentace.
Li Fei-Fei v rozhovoru uvedla, že jejich první produkt, Marble, využívá „modelu okamžitého snímku“ (RTFM) k generaci konzistentních a trvalých 3D prostorů. Tento model je multimodální a dokáže zpracovávat text, obrázky, videa a hrubé 3D uspořádání jako vstupy. Důležité je, že Marble se snaží udržet konzistenci objektů ve svém inferenčním procesu.
V debatě o schopnostech umělé inteligence Fei-Fei zdůraznila, že velké jazykové modely jsou omezené, neboť se učí hlavně z textových dat. Vyjádřila názor, že pro vývoj skutečně obecné umělé inteligence (AGI) musí AI překročit omezení jazyka a rozvinout schopnost vnímat fyzický svět prostřednictvím vizuálních a akčních zkušeností.
Když byla dotázána, zda současné AI skutečně „rozumí“ fyzickému světu, Fei-Fei poznamenala, že většina generovaných videí a simulací přírodních jevů, jako je voda a pohyb stromů, je založena spíše na statistických vzorcích než na Newtonových fyzikálních zákonech. Přestože AI dokáže „naučit se“ pohybové zákony, nedokáže se abstrahovat na úroveň relativistických teorií, jelikož aktuální Transformery zatím neprokázaly dostatečné důkazy.
Li Fei-Fei předpověděla, že do pěti let bychom mohli vidět významný pokrok v porozumění fyzickému světu ze strany AI. Popsala vizi budoucnosti založenou na „multivesmíru“, kde by lidé mohli levně vytvářet nespočet paralelních světů, které by rozšířily naše fyzické zážitky a transformovaly zábavu, vzdělávání a kolaboraci na dálku.
Důležité body z rozhovoru Li Fei-Fei
- Jazyk není dostatečný pro konstrukci obecné umělé inteligence (AGI); AI musí dosáhnout prostorové inteligence.
- Marble se liší od běžných modelů tvorby videí, protože zachovává „permanenci objektů“ v generovaném prostoru.
- Cílem RTFM je efektivní 3D prostorové uvažování s využitím H100 GPU.
- Li Fei-Fei věří, že implicitní a explicitní reprezentace se musí spojit pro plné uplatnění AI.
- AI by měla být nástrojem pro kreativce, umožňující jim snadno stavět složité 3D interaktivní světy.
Diskuze o Babylonu prostoru, tvořeném technologií Marble a propojení s kulturním a kreativním vyjádřením, ukazuje, jak atraktivní mohou být koncepce umělé inteligence pro široké spektrum oborů a aplikací. Obory jako vzdělávání a zdravotní péče mohou mít velký prospěch z rozvoje prostorové inteligence.
Li Fei-Fei ukazuje cestu vpřed nejen pro výzkum a vývoj, ale i pro praktickou aplikaci technologií, které mohou usnadnit interakci lidí s digitálním prostorem a přinést nové možnosti pro kreativní a profesní činnosti.

