Meta Pixel
AlexisAlexis
6 min read
1165 szó

World Labs Marble: Fei-Fei Li térbeli intelligencia víziója

Az AI úttörője, Fei-Fei Li elindítja a Marble-t, egy kereskedelmi platformot, amely szövegből és képekből felfedezhető 3D világokat generál, új határt nyitva a térbeli mesterséges intelligenciában.

World Labs Marble: Fei-Fei Li térbeli intelligencia víziója
A kutató, aki megtanította a gépeket látni, most teljes világok elképzelésére tanítja őket. A World Labs Marble-lel Fei-Fei Li a videógenerálás után következő lépést teszi meg a perzisztens, felfedezhető 3D környezetek felé.

Az ImageNet-től a világmodellekig

💡

Ahhoz, hogy megértsd, hogyan illeszkednek a világmodellek az AI videó evolúciójába, lásd a világmodellek mint következő határ áttekintésünket.

Fei-Fei Li forradalmasította a számítógépes látást az ImageNet-tel, azzal az adathalmazsal, amely lehetővé tette a modern mély tanulást. Most, miután egy évet töltött a World Labs építésével 230 millió dollár finanszírozással, elindította a Marble-t, a vállalat első kereskedelmi termékét.

A tézis egyszerű: az AI meghódította a szöveget, aztán a képeket, aztán a videót. A következő határ a térbeli intelligencia, a képesség a 3D világok érzékelésére, generálására és interakciójára.

$230M
Megszerzett finanszírozás
4
Árkategória
3D
Natív kimenet

Mit csinál a Marble

A Marble perzisztens, letölthető 3D környezeteket generál több bemenet típusból:

  • Szöveges promptok
  • Egyedi képek
  • Videók
  • Panorámák
  • 3D elrendezések

A valós idejű világmodellek versenytársaitól, mint a Decart Oasis vagy a Google Genie, eltérően a Marble stabil világokat hoz létre minimális morfingolással. Egyszer generálsz, aztán szabadon felfedezel anélkül, hogy az AI "elfelejtené", mit alkotott.

A Chisel szerkesztő

🔨

AI-natív 3D szerkesztés

A Chisel elválasztja a térbeli struktúrát a vizuális stílustól. Először vázold fel az elrendezést, aztán alkalmazz szöveges stílusirányítást.

Ez a hibrid megközelítés különbözteti meg a Marble-t a szöveg-jelenet modellektől. Ahelyett, hogy remélnéd, hogy az AI megérti térbeli szándékodat, explicit módon definiálod a geometriát. Az AI kezeli az esztétikát, az anyagokat és a világítást.

Gondolj rá úgy, mintha egy alaprajzot vázolnál, mielőtt megkérsz egy belsőépítészt a dekorálásra. A térbeli kapcsolatok feletti ellenőrzés a tiéd marad.

Exportformátumok és kompatibilitás

A generált világok három formátumban exportálhatók:

FormátumFelhasználás
Gauss-féle spatekValós idejű renderelés, új nézetek
Mesh-ekJátékmotorok, CAD integráció
VideókTartalomkészítés, előzetes vizualizáció
💡

Minden Marble világ VR-kompatibilis Vision Pro és Quest 3 headsetekkel azonnal, dobozból kivéve.

Árstruktúra

A World Labs négy szintet kínál:

SzintÁrGenerálásokKulcsfunkciók
Free$04/hóSzöveg, kép vagy panoráma bemenet
Standard$20/hó12/hóTöbb kép/videó bemenet, fejlett szerkesztés
Pro$35/hó25/hóJelenet bővítés, kereskedelmi jogok
Max$95/hó75/hóMinden funkció, maximum generálások

Az ingyenes szint lehetővé teszi a technológia értékelését. A kereskedelmi jogokat igénylő produkciós munkához a Pro szint $35/hóban ésszerű belépési árat jelent egy ilyen új képességhez.

Miért számít a térbeli intelligencia

"A térbeli intelligencia a következő évtized meghatározó kihívása." - Fei-Fei Li

Li azt állítja, hogy a jelenlegi AI-nak alapvető korlátja van: rosszul érvel a 3D térről. A nyelvi modellek hallucinálják a fizikát. A videómodellek lehetetlen geometriákat hoznak létre. A képgenerátorok küzdenek a konzisztens térbeli kapcsolatokkal.

Jelenlegi megközelítések
A videómodellek képkockaszekvenciákat generálnak valódi 3D megértés nélkül. A kameramozgások következetlenségeket tárnak fel. Az objektumok pozíciót változtatnak vagy eltűnnek.
Térbeli intelligencia
A natív 3D reprezentáció fizikailag konzisztens világokat tesz lehetővé. Mozgasd szabadon a kamerát. A környezet megmarad, mert geometriaként létezik, nem pixelként.

A robotika számára ez óriási jelentőséggel bír. Egy konyhában navigáló robotnak térbeli megértésre van szüksége, nem képkocka-előrejelzésre. A VFX esetében a rendezőknek felfedezhető környezetekre van szükségük, nem rögzített kameraútvonalakra.

Kialakuló felhasználási esetek

Játékok Generálj atmoszférikus környezeteket és háttértereket. Független fejlesztők felfedezési területeket hozhatnak létre, amelyek hónapokat igényelnének hagyományos művészeti produkció esetén.

Vizuális effektusok Az előzetes vizualizáció interaktívvá válik. Vázold fel térben a jelenetet, majd fedezd fel a kameraszögeket, mielőtt elköteleznéd magad a felvételek mellett.

Építészet Alakítsd át az alaprajzokat felfedezhető bejárásokká. Az ügyfelek megtapasztalják a tereket az építkezés megkezdése előtt.

Oktatás Li diákokat képzel el, akik egy sejten belül sétálnak, sebészeket, akik anatómiai szimulációkon belül gyakorolnak.

Világbővítés és Composer mód

Két funkció foglalkozik a skála korlátaival:

A világbővítés lehetővé teszi, hogy egyszer kiterjeszd a generált világot, részleteket adva hozzá a szélső régiókhoz, ahol a minőség jellemzően romlik. Ez kitolја a felfedezhető tér határait az eredeti generálási korlátokon túl.

A Composer mód több világot kombinál nagyobb környezetekké. Generálj egyedi szobákat, majd fűzd őket össze egy teljes épületté.

Ezek az eszközök elismerik a jelenlegi korlátokat, miközben gyakorlati megoldásokat nyújtanak.

A versenytársak tája

A Marble zsúfolt mezőbe lép:

TermékMegközelítésMegkülönböztető
Decart OasisValós idejű játékgenerálásInteraktív, de a világok eltolódnak a felfedezés során
Google GenieJátékvilág generálásKépkocka-előrejelzés valódi 3D nélkül
OdysseyPerzisztens világmodellekVállalati fókusz
World Labs MarbleStatikus 3D generálásLetölthető, szerkeszthető, VR-ready

A kompromisszum világos. A valós idejű modellek, mint az Oasis, azonnaliságot kínálnak, de instabilitást. A Marble a perzisztenciát és a szerkeszthetőséget helyezi előtérbe az interaktivitással szemben.

Kapcsolódás a videógeneráláshoz

💡

A térbeli AI-ban használt diffúziós architektúrák hátteréhez lásd diffúziós transzformátorok technikai áttekintésünket.

Hogyan kapcsolódik a 3D világgenerálás a videóhoz? Megosztják a matematikai alapokat a diffúziós modellekben, de különböző problémákat oldanak meg.

A videógenerálás időbeli szekvenciákat hoz létre, képkockáról képkockára. A térbeli AI geometriai reprezentációkat hoz létre, felületeket és térfogatokat. A videó azt válaszolja meg, "mi történik ezután?" A térbeli AI azt válaszolja meg, "mi létezik itt?"

A konvergenciapont: navigálható videó. Generálj egy 3D világot, majd renderelj videót, ahogy átmozogsz rajta. Ez a megközelítés olyan kamerakontrollt kínál, amely lehetetlen tisztán videógenerálással.

Mérlegelendő korlátok

A Marble nem teljes megoldás:

  • Nincsenek animált karakterek vagy dinamikus elemek
  • A generálási korlátok korlátozhatják a produkciós munkafolyamatokat
  • A szélromlás bővítési meneteket igényel
  • Csak statikus környezetek

Animált tartalomhoz még mindig videógenerálási modellekre van szükséged. A Marble környezetekben és terekben jeleskedik, nem színészekben vagy akciókban.

A nagyobb kép

Fei-Fei Li a térbeli intelligenciát létfontosságúnak látja az AI fejlődéséhez:

"Szerintem mindannyiunknak felelősségünk van az AI jobb állapotba való bevezetésében, ahogy egyre erősebbé válik. Mindannyiunknak azt kellene akarnunk, hogy az emberiség győzedelmeskedjen és virágozzon."

Víziója túlmutat a szórakoztatáson. Orvosi szimulációk, ahol a diákok felfedezik az anatómiát. Tudományos vizualizációk, ahol a kutatók molekuláris struktúrákon navigálnak. Robotikus képzési környezetek igény szerint generálva.

A Marble az első lépés, egy kereskedelmi koncepció bizonyítása. A kutatás folytatódik a dinamikusabb, interaktívabb és fizikailag pontosabb világgenerálás felé.

Kezdés

A World Labs ingyenes szintet kínál havi 4 generálással. Elég a technológia értékeléséhez és korlátainak megértéséhez.

A már 3D-ben dolgozó alkotók számára a mesh exportálási képesség integrálódik a meglévő csővezetékekkel. A videóproducerek számára a videó export olyan előzetes vizualizációs képességeket nyújt, amelyek máshol nem elérhetők.

💡

Kapcsolódó olvasmány: AI videó karakter konzisztencia útmutatónk a generált tartalmon keresztüli koherencia fenntartásának technikáit tárgyalja, egy kihívást, amelyet a Marble perzisztens 3D reprezentációval old meg.

A 2D generálásról a 3D világalkotásra való átmenet alapvető változást jelent abban, amit az AI képes előállítani. A Marble ezt a változást teszi hozzáférhetővé.

Hasznos volt ez a cikk?

Alexis

Alexis

AI Mérnök

AI mérnök Lausanne-ból, aki a kutatás mélységét gyakorlati innovációval ötvözi. Idejét modell architektúrák és alpesi csúcsok között osztja meg.

Kapcsolódó cikkek

Fedezd fel ezeket a kapcsolódó bejegyzéseket

Tetszett a cikk?

Fedezz fel további érdekességeket, és maradj naprakész a legújabb tartalmainkkal.

World Labs Marble: Fei-Fei Li térbeli intelligencia víziója