World Labs Marble: Fei-Fei Li térbeli intelligencia víziója
Az AI úttörője, Fei-Fei Li elindítja a Marble-t, egy kereskedelmi platformot, amely szövegből és képekből felfedezhető 3D világokat generál, új határt nyitva a térbeli mesterséges intelligenciában.

Az ImageNet-től a világmodellekig
Ahhoz, hogy megértsd, hogyan illeszkednek a világmodellek az AI videó evolúciójába, lásd a világmodellek mint következő határ áttekintésünket.
Fei-Fei Li forradalmasította a számítógépes látást az ImageNet-tel, azzal az adathalmazsal, amely lehetővé tette a modern mély tanulást. Most, miután egy évet töltött a World Labs építésével 230 millió dollár finanszírozással, elindította a Marble-t, a vállalat első kereskedelmi termékét.
A tézis egyszerű: az AI meghódította a szöveget, aztán a képeket, aztán a videót. A következő határ a térbeli intelligencia, a képesség a 3D világok érzékelésére, generálására és interakciójára.
Mit csinál a Marble
A Marble perzisztens, letölthető 3D környezeteket generál több bemenet típusból:
- ✓Szöveges promptok
- ✓Egyedi képek
- ✓Videók
- ✓Panorámák
- ✓3D elrendezések
A valós idejű világmodellek versenytársaitól, mint a Decart Oasis vagy a Google Genie, eltérően a Marble stabil világokat hoz létre minimális morfingolással. Egyszer generálsz, aztán szabadon felfedezel anélkül, hogy az AI "elfelejtené", mit alkotott.
A Chisel szerkesztő
AI-natív 3D szerkesztés
A Chisel elválasztja a térbeli struktúrát a vizuális stílustól. Először vázold fel az elrendezést, aztán alkalmazz szöveges stílusirányítást.
Ez a hibrid megközelítés különbözteti meg a Marble-t a szöveg-jelenet modellektől. Ahelyett, hogy remélnéd, hogy az AI megérti térbeli szándékodat, explicit módon definiálod a geometriát. Az AI kezeli az esztétikát, az anyagokat és a világítást.
Gondolj rá úgy, mintha egy alaprajzot vázolnál, mielőtt megkérsz egy belsőépítészt a dekorálásra. A térbeli kapcsolatok feletti ellenőrzés a tiéd marad.
Exportformátumok és kompatibilitás
A generált világok három formátumban exportálhatók:
| Formátum | Felhasználás |
|---|---|
| Gauss-féle spatek | Valós idejű renderelés, új nézetek |
| Mesh-ek | Játékmotorok, CAD integráció |
| Videók | Tartalomkészítés, előzetes vizualizáció |
Minden Marble világ VR-kompatibilis Vision Pro és Quest 3 headsetekkel azonnal, dobozból kivéve.
Árstruktúra
A World Labs négy szintet kínál:
| Szint | Ár | Generálások | Kulcsfunkciók |
|---|---|---|---|
| Free | $0 | 4/hó | Szöveg, kép vagy panoráma bemenet |
| Standard | $20/hó | 12/hó | Több kép/videó bemenet, fejlett szerkesztés |
| Pro | $35/hó | 25/hó | Jelenet bővítés, kereskedelmi jogok |
| Max | $95/hó | 75/hó | Minden funkció, maximum generálások |
Az ingyenes szint lehetővé teszi a technológia értékelését. A kereskedelmi jogokat igénylő produkciós munkához a Pro szint $35/hóban ésszerű belépési árat jelent egy ilyen új képességhez.
Miért számít a térbeli intelligencia
"A térbeli intelligencia a következő évtized meghatározó kihívása." - Fei-Fei Li
Li azt állítja, hogy a jelenlegi AI-nak alapvető korlátja van: rosszul érvel a 3D térről. A nyelvi modellek hallucinálják a fizikát. A videómodellek lehetetlen geometriákat hoznak létre. A képgenerátorok küzdenek a konzisztens térbeli kapcsolatokkal.
A robotika számára ez óriási jelentőséggel bír. Egy konyhában navigáló robotnak térbeli megértésre van szüksége, nem képkocka-előrejelzésre. A VFX esetében a rendezőknek felfedezhető környezetekre van szükségük, nem rögzített kameraútvonalakra.
Kialakuló felhasználási esetek
Játékok Generálj atmoszférikus környezeteket és háttértereket. Független fejlesztők felfedezési területeket hozhatnak létre, amelyek hónapokat igényelnének hagyományos művészeti produkció esetén.
Vizuális effektusok Az előzetes vizualizáció interaktívvá válik. Vázold fel térben a jelenetet, majd fedezd fel a kameraszögeket, mielőtt elköteleznéd magad a felvételek mellett.
Építészet Alakítsd át az alaprajzokat felfedezhető bejárásokká. Az ügyfelek megtapasztalják a tereket az építkezés megkezdése előtt.
Oktatás Li diákokat képzel el, akik egy sejten belül sétálnak, sebészeket, akik anatómiai szimulációkon belül gyakorolnak.
Világbővítés és Composer mód
Két funkció foglalkozik a skála korlátaival:
A világbővítés lehetővé teszi, hogy egyszer kiterjeszd a generált világot, részleteket adva hozzá a szélső régiókhoz, ahol a minőség jellemzően romlik. Ez kitolја a felfedezhető tér határait az eredeti generálási korlátokon túl.
A Composer mód több világot kombinál nagyobb környezetekké. Generálj egyedi szobákat, majd fűzd őket össze egy teljes épületté.
Ezek az eszközök elismerik a jelenlegi korlátokat, miközben gyakorlati megoldásokat nyújtanak.
A versenytársak tája
A Marble zsúfolt mezőbe lép:
| Termék | Megközelítés | Megkülönböztető |
|---|---|---|
| Decart Oasis | Valós idejű játékgenerálás | Interaktív, de a világok eltolódnak a felfedezés során |
| Google Genie | Játékvilág generálás | Képkocka-előrejelzés valódi 3D nélkül |
| Odyssey | Perzisztens világmodellek | Vállalati fókusz |
| World Labs Marble | Statikus 3D generálás | Letölthető, szerkeszthető, VR-ready |
A kompromisszum világos. A valós idejű modellek, mint az Oasis, azonnaliságot kínálnak, de instabilitást. A Marble a perzisztenciát és a szerkeszthetőséget helyezi előtérbe az interaktivitással szemben.
Kapcsolódás a videógeneráláshoz
A térbeli AI-ban használt diffúziós architektúrák hátteréhez lásd diffúziós transzformátorok technikai áttekintésünket.
Hogyan kapcsolódik a 3D világgenerálás a videóhoz? Megosztják a matematikai alapokat a diffúziós modellekben, de különböző problémákat oldanak meg.
A videógenerálás időbeli szekvenciákat hoz létre, képkockáról képkockára. A térbeli AI geometriai reprezentációkat hoz létre, felületeket és térfogatokat. A videó azt válaszolja meg, "mi történik ezután?" A térbeli AI azt válaszolja meg, "mi létezik itt?"
A konvergenciapont: navigálható videó. Generálj egy 3D világot, majd renderelj videót, ahogy átmozogsz rajta. Ez a megközelítés olyan kamerakontrollt kínál, amely lehetetlen tisztán videógenerálással.
Mérlegelendő korlátok
A Marble nem teljes megoldás:
- ○Nincsenek animált karakterek vagy dinamikus elemek
- ○A generálási korlátok korlátozhatják a produkciós munkafolyamatokat
- ○A szélromlás bővítési meneteket igényel
- ○Csak statikus környezetek
Animált tartalomhoz még mindig videógenerálási modellekre van szükséged. A Marble környezetekben és terekben jeleskedik, nem színészekben vagy akciókban.
A nagyobb kép
Fei-Fei Li a térbeli intelligenciát létfontosságúnak látja az AI fejlődéséhez:
"Szerintem mindannyiunknak felelősségünk van az AI jobb állapotba való bevezetésében, ahogy egyre erősebbé válik. Mindannyiunknak azt kellene akarnunk, hogy az emberiség győzedelmeskedjen és virágozzon."
Víziója túlmutat a szórakoztatáson. Orvosi szimulációk, ahol a diákok felfedezik az anatómiát. Tudományos vizualizációk, ahol a kutatók molekuláris struktúrákon navigálnak. Robotikus képzési környezetek igény szerint generálva.
A Marble az első lépés, egy kereskedelmi koncepció bizonyítása. A kutatás folytatódik a dinamikusabb, interaktívabb és fizikailag pontosabb világgenerálás felé.
Kezdés
A World Labs ingyenes szintet kínál havi 4 generálással. Elég a technológia értékeléséhez és korlátainak megértéséhez.
A már 3D-ben dolgozó alkotók számára a mesh exportálási képesség integrálódik a meglévő csővezetékekkel. A videóproducerek számára a videó export olyan előzetes vizualizációs képességeket nyújt, amelyek máshol nem elérhetők.
Kapcsolódó olvasmány: AI videó karakter konzisztencia útmutatónk a generált tartalmon keresztüli koherencia fenntartásának technikáit tárgyalja, egy kihívást, amelyet a Marble perzisztens 3D reprezentációval old meg.
A 2D generálásról a 3D világalkotásra való átmenet alapvető változást jelent abban, amit az AI képes előállítani. A Marble ezt a változást teszi hozzáférhetővé.
Hasznos volt ez a cikk?

Alexis
AI MérnökAI mérnök Lausanne-ból, aki a kutatás mélységét gyakorlati innovációval ötvözi. Idejét modell architektúrák és alpesi csúcsok között osztja meg.
Kapcsolódó cikkek
Fedezd fel ezeket a kapcsolódó bejegyzéseket

Runway GWM-1: Az általános világmodell, amely valós időben szimulálja a valóságot
A Runway GWM-1 paradigmaváltást jelent a videók generálásától a világok szimulációjáig. Fedezze fel, hogy ez az autoregresszív modell hogyan hoz létre felfedezhető környezeteket, fotorealisztikus avatárokat és robot-edzési szimulációkat.

A YouTube Bevezeti a Veo 3 Fast-ot a Shorts-ba: Ingyenes AI Videógenerálás 2,5 Milliárd Felhasználónak
A Google integrálja Veo 3 Fast modelljét közvetlenül a YouTube Shorts-ba, ingyenes szövegből videó generálást kínálva hanggal a tartalomkészítőknek világszerte. Íme, mit jelent ez a platform és az AI videó elérhetősége szempontjából.

Videonyelvmodellek: Az LLM-ek és MI-ügynökök utáni következő határ
A világmodellek megtanítják az MI-t a fizikai valóság megértésére, lehetővé téve a robotok számára, hogy tervezzék és szimuláljuk az eredményeket, mielőtt egyetlen aktuátort is mozgatnának.