Meta Pixel
AlexisAlexis
6 min read
1075 vārdi

World Labs Marble: Fei-Fei Li vīzija telpiskās inteliģences jomā

AI pioniere Fei-Fei Li palaiž Marble, komerciālu platformu kas ģenerē pētāmas 3D pasaules no teksta un attēliem, iezīmējot jaunu robežu telpiskajā AI.

World Labs Marble: Fei-Fei Li vīzija telpiskās inteliģences jomā
Pētniece kas deva mašīnām spēju redzēt, tagad māca tām iedomāties veselas pasaules. Ar World Labs Marble Fei-Fei Li sper nākamo soli pāri video ģenerēšanai uz pastāvīgām, pētāmām 3D vidēm.

No ImageNet uz pasaules modeļiem

💡

Kontekstam par to, kā pasaules modeļi iekļaujas AI video attīstībā, skatiet mūsu pārskatu par pasaules modeļiem kā nākamo robežu.

Fei-Fei Li revolucionēja datorredzību ar ImageNet, datu kopu kas padarīja modernu dziļo mācīšanos iespējamu. Tagad, pēc gada World Labs veidošanas ar 230 miljonu dolāru finansējumu, viņa ir palaista Marble, uzņēmuma pirmo komerciālo produktu.

Tēze ir vienkārša: AI ir iekarojusi tekstu, tad attēlus, tad video. Nākamā robeža ir telpiskā inteliģence, spēja uztvert, ģenerēt un mijiedarboties ar 3D pasaulēm.

$230M
Finansējums
4
Cenu līmeņi
3D
Oriģinālais izvads

Ko Marble dara

Marble ģenerē pastāvīgas, lejupielādējamas 3D vides no vairākiem ievades veidiem:

  • Teksta uzvednes
  • Atsevišķi attēli
  • Video
  • Panorāmas
  • 3D izkārtojumi

Atšķirībā no reāllaika pasaules modeļiem no konkurentiem kā Decart Oasis vai Google Genie, Marble rada stabilas pasaules ar minimālu deformāciju. Tu ģenerē vienu reizi, tad pētī brīvi bez AI "aizmirst" ko tā radīja.

Chisel redaktors

🔨

AI-oriģinālā 3D rediģēšana

Chisel atdala telpisko struktūru no vizuālā stila. Plāno savu izkārtojumu vispirms, tad pielieto teksta balstītu stila vadību.

Šī hibrīdā pieeja atšķir Marble no teksta-uz-ainu modeļiem. Tā vietā lai cerētu ka AI saprot tavu telpisko nodomu, tu definē ģeometriju skaidri. AI apstrādā estētiku, materiālus un apgaismojumu.

Domā par to kā pamata plāna skicēšanu pirms tu lūdz interjera dizainerim dekorēt. Kontrole pār telpiskajām attiecībām paliek tava.

Eksporta formāti un saderība

Ģenerētās pasaules tiek eksportētas trīs formātos:

FormātsLietojums
Gaussian SplatsReāllaika renderēšana, jauni skatu leņķi
MeshesSpēļu dzinēji, CAD integrācija
VideoSatura veidošana, priekšapskate
💡

Visas Marble pasaules ir VR-saderīgas ar Vision Pro un Quest 3 galvas komplektiem tieši.

Cenu struktūra

World Labs piedāvā četrus līmeņus:

LīmenisCenaĢenerēšanasGalvenās funkcijas
Bezmaksas$04/mēnesīTeksta, attēla vai panorāmas ievade
Standarta$20/mēnesī12/mēnesīVairāku attēlu/video ievade, uzlabota rediģēšana
Pro$35/mēnesī25/mēnesīAinas paplašināšana, komerciālās tiesības
Max$95/mēnesī75/mēnesīVisas funkcijas, maksimālais ģenerēšanas skaits

Bezmaksas līmenis ļauj novērtēt tehnoloģiju. Ražošanas darbam kas prasa komerciālās tiesības, Pro līmenis par 35 dolāriem mēnesī pārstāv saprātīgu ieejas cenu tik jaunai spējai.

Kāpēc telpiskā inteliģence ir svarīga

"Telpiskā inteliģence ir nākamās desmitgades noteicošais izaicinājums." - Fei-Fei Li

Li apgalvo ka pašreizējam AI ir fundamentāls ierobežojums: tas slikti spriest par 3D telpu. Valodas modeļi halucina fiziku. Video modeļi rada neiespējamas ģeometrijas. Attēlu ģeneratori cīnās ar konsekventām telpiskām attiecībām.

Pašreizējās pieejas
Video modeļi ģenerē kadru secības bez īstas 3D izpratnes. Kameras kustības atklāj nekonsekvences. Objekti maina pozīciju vai pazūd.
Telpiskā inteliģence
Oriģinālais 3D attēlojums ļauj fiziski konsekventām pasaulēm. Kusties kameru brīvi. Vide pastāv jo tā eksistē kā ģeometrija, nevis pikseļi.

Robotikas jomā tas ir ārkārtīgi svarīgi. Robotam kas navigē virtuvē vajag telpisku izpratni, nevis kadru prognozēšanu. VFX jomā režisoriem vajag pētāmas vides, nevis fiksētas kameru ceļus.

Lietojumi iegūst formu

Spēles Ģenerē apkārtējās vides un fona vietas. Indie izstrādātāji var radīt pētīšanas teritorijas kas prasītu mēnešus tradicionālās mākslas ražošanas.

Vizuālie efekti Priekšapskate kļūst interaktīva. Plāno ainu telpiski, tad pētī kameras leņķus pirms saistības ar uzņemšanu.

Arhitektūra Pārvērst pamata plānus pētāmās izstaigāšanās. Klienti pieredz telpas pirms būvniecības sākuma.

Izglītība Li iedomājas studentus staigājot šūnas iekšpusē, ķirurgus praktizējot anatomiskajās simulācijās.

Pasaules paplašināšana un komponista režīms

Divas funkcijas risina mēroga ierobežojumus:

Pasaules paplašināšana ļauj paplašināt ģenerēto pasauli vienu reizi, pievienojot detaļas malas zonās kur kvalitāte parasti pasliktinās. Tas pārvieto pētāmās telpas robežas pāri sākotnējiem ģenerēšanas ierobežojumiem.

Komponista režīms apvieno vairākas pasaules lielākās vidēs. Ģenerē atsevišķas telpas, tad sašuj tās kopā pilnīgā ēkā.

Šie rīki atzīst pašreizējos ierobežojumus vienlaikus nodrošinot praktiskus risinājumus.

Konkurences ainava

Marble ienāk pildītā laukā:

ProduktsPieejaAtšķirības faktors
Decart OasisReāllaika spēļu ģenerēšanaInteraktīvs, bet pasaules mainās pētīšanas laikā
Google GenieSpēļu pasaules ģenerēšanaKadru prognozēšana bez īstas 3D
OdysseyPastāvīgi pasaules modeļiUzņēmumu fokuss
World Labs MarbleStatiska 3D ģenerēšanaLejupielādējams, rediģējams, VR-gatavs

Kompromiss ir skaidrs. Reāllaika modeļi kā Oasis piedāvā tūlītību bet nestabilitāti. Marble prioritizē pastāvību un rediģējamību pār interaktivitāti.

Savienojums ar video ģenerēšanu

💡

Pamatinformācijai par difūzijas arhitektūrām kas izmantotas telpiskajā AI, skatiet mūsu tehnisko pārskatu par difūzijas transformatoriem.

Kā 3D pasaules ģenerēšana attiecas uz video? Tās dalās matemātiskos pamatos difūzijas modeļos, bet risina dažādas problēmas.

Video ģenerēšana rada laika secības, kadrs pēc kadra. Telpiskais AI rada ģeometriskos attēlojumus, virsmas un tilpumus. Video atbild "kas notiks tālāk?" Telpiskais AI atbild "kas eksistē šeit?"

Konverģences punkts: navigējams video. Ģenerē 3D pasauli, tad renderē video kad kustaties cauri tai. Šī pieeja piedāvā kameras kontroli neiespējamu ar tīru video ģenerēšanu.

Ierobežojumi ko ņemt vērā

Marble nav pilnīgs risinājums:

  • Nav animētu varoņu vai dinamisku elementu
  • Ģenerēšanas ierobežojumi var ierobežot ražošanas darba plūsmas
  • Malas pasliktināšanās prasa paplašināšanas ciklus
  • Tikai statiskas vides

Animētam saturam joprojām vajag video ģenerēšanas modeļus. Marble izceļas vidēs un telpās, nevis aktieriem vai darbībām.

Lielākais attēls

Fei-Fei Li redz telpisku inteliģenci kā būtisku AI progresam:

"Es domāju ka mums visiem ir atbildība vadīt AI labākā stāvoklī kad tas kļūst spēcīgāks. Mums visiem vajadzētu vēlēties lai cilvēce uzvarētu un uzplauktu."

Viņas vīzija sniedzas pāri izklaidei. Medicīniskas simulācijas kur studenti pēta anatomiju. Zinātniskas vizualizācijas kur pētnieki navigē molekulārās struktūrās. Robotiskas apmācības vides ģenerētas pēc pieprasījuma.

Marble ir pirmais solis, komerciāls koncepcijas pierādījums. Pētījumi turpinās virzienā uz dinamisku, interaktīvu un fiziski precīzu pasaules ģenerēšanu.

Darba sākšana

World Labs piedāvā bezmaksas līmeni ar 4 ģenerēšanām mēnesī. Pietiekami lai novērtētu tehnoloģiju un saprastu tās ierobežojumus.

Veidotājiem kas jau strādā 3D, mesh eksporta spēja integrējas ar esošajām darba plūsmām. Video producentiem video eksports nodrošina priekšapskates spējas nepieejamas citur.

💡

Saistītā lasīšana: Mūsu ceļvedis AI video varoņu konsekvencei aptver tehnikas lai uzturētu koherenci pāri ģenerētam saturam, izaicinājums ko Marble risina caur pastāvīgu 3D attēlojumu.

Pāreja no 2D ģenerēšanas uz 3D pasaules radīšanu pārstāv fundamentālu pārmaiņu tam ko AI var radīt. Marble padara šo pārmaiņu pieejamu.

Vai šis raksts bija noderīgs?

Alexis

Alexis

MI Inženieris

MI inženieris no Lozannas, kurš apvieno pētniecības dziļumu ar praktisku inovāciju. Dala laiku starp modeļu arhitektūrām un Alpu kalniem.

Saistītie raksti

Turpiniet izpēti ar šiem saistītajiem rakstiem

Vai jums patika šis raksts?

Atklājiet vairāk ieskatu un sekojiet līdzi mūsu jaunākajam saturam.

World Labs Marble: Fei-Fei Li vīzija telpiskās inteliģences jomā