Meta Pixel
AlexisAlexis
7 min read
1321 λέξεις

World Labs Marble: Το Όραμα της Fei-Fei Li για τη Χωρική Νοημοσύνη

Η πρωτοπόρος της ΤΝ Fei-Fei Li λανσάρει το Marble, μια εμπορική πλατφόρμα που δημιουργεί εξερευνήσιμους τρισδιάστατους κόσμους από κείμενο και εικόνες, σηματοδοτώντας ένα νέο ορόσημο στη χωρική ΤΝ.

World Labs Marble: Το Όραμα της Fei-Fei Li για τη Χωρική Νοημοσύνη
Η ερευνήτρια που έδωσε στις μηχανές την ικανότητα να βλέπουν τώρα τους διδάσκει να φαντάζονται ολόκληρους κόσμους. Με το World Labs Marble, η Fei-Fei Li κάνει το επόμενο βήμα πέρα από τη δημιουργία βίντεο προς μόνιμα, εξερευνήσιμα τρισδιάστατα περιβάλλοντα.

Από το ImageNet στα Μοντέλα Κόσμου

💡

Για το πλαίσιο του πώς τα μοντέλα κόσμου εντάσσονται στην εξέλιξη του βίντεο με ΤΝ, δείτε την επισκόπησή μας για τα μοντέλα κόσμου ως το επόμενο ορόσημο.

Η Fei-Fei Li φέρει επανάσταση στην υπολογιστική όραση με το ImageNet, το σύνολο δεδομένων που έκανε δυνατή τη σύγχρονη βαθιά μάθηση. Τώρα, μετά από ένα χρόνο οικοδόμησης της World Labs με χρηματοδότηση $230 εκατομμυρίων, λάνσαρε το Marble, το πρώτο εμπορικό προϊόν της εταιρείας.

Η θέση είναι απλή: η ΤΝ κατέκτησε το κείμενο, έπειτα τις εικόνες, έπειτα το βίντεο. Το επόμενο ορόσημο είναι η χωρική νοημοσύνη, η ικανότητα αντίληψης, δημιουργίας και αλληλεπίδρασης με τρισδιάστατους κόσμους.

$230M
Χρηματοδότηση που Συγκεντρώθηκε
4
Επίπεδα Τιμολόγησης
3D
Εγγενής Έξοδος

Τι Κάνει το Marble

Το Marble δημιουργεί μόνιμα, κατεβάσιμα τρισδιάστατα περιβάλλοντα από πολλαπλούς τύπους εισόδου:

  • Προτροπές κειμένου
  • Μεμονωμένες εικόνες
  • Βίντεο
  • Πανοράματα
  • Τρισδιάστατες διατάξεις

Σε αντίθεση με τα μοντέλα κόσμου σε πραγματικό χρόνο από ανταγωνιστές όπως το Oasis της Decart ή το Genie της Google, το Marble δημιουργεί σταθερούς κόσμους με ελάχιστη παραμόρφωση. Δημιουργείς μία φορά, έπειτα εξερευνάς ελεύθερα χωρίς η ΤΝ να "ξεχνά" τι δημιούργησε.

Ο Επεξεργαστής Chisel

🔨

Εγγενής Επεξεργασία 3D με ΤΝ

Το Chisel διαχωρίζει τη χωρική δομή από το οπτικό στυλ. Πρώτα σχεδιάζεις τη διάταξή σου σε μπλοκ, έπειτα εφαρμόζεις καθοδήγηση στυλ βασισμένη σε κείμενο.

Αυτή η υβριδική προσέγγιση ξεχωρίζει το Marble από τα μοντέλα κειμένου σε σκηνή. Αντί να ελπίζεις ότι η ΤΝ καταλαβαίνει την χωρική σου πρόθεση, ορίζεις τη γεωμετρία ρητά. Η ΤΝ χειρίζεται την αισθητική, τα υλικά και το φωτισμό.

Σκέψου το σαν να σχεδιάζεις μια κάτοψη πριν ζητήσεις από έναν διακοσμητή εσωτερικών χώρων να διακοσμήσει. Ο έλεγχος των χωρικών σχέσεων παραμένει δικός σου.

Μορφές Εξαγωγής και Συμβατότητα

Οι δημιουργημένοι κόσμοι εξάγονται σε τρεις μορφές:

ΜορφήΠερίπτωση Χρήσης
Gaussian SplatsΑπόδοση σε πραγματικό χρόνο, νέες προβολές
ΠλέγματαΜηχανές παιχνιδιών, ενσωμάτωση CAD
ΒίντεοΔημιουργία περιεχομένου, προ-απεικόνιση
💡

Όλοι οι κόσμοι Marble είναι συμβατοί με VR για κράνη Vision Pro και Quest 3 εξ αρχής.

Δομή Τιμολόγησης

Η World Labs προσφέρει τέσσερα επίπεδα:

ΕπίπεδοΤιμήΔημιουργίεςΒασικά Χαρακτηριστικά
Δωρεάν$04/μήναΕίσοδος κειμένου, εικόνας ή πανοράματος
Standard$20/μήνα12/μήναΕίσοδος πολλαπλών εικόνων/βίντεο, προηγμένη επεξεργασία
Pro$35/μήνα25/μήναΕπέκταση σκηνής, εμπορικά δικαιώματα
Max$95/μήνα75/μήναΌλα τα χαρακτηριστικά, μέγιστες δημιουργίες

Το δωρεάν επίπεδο σου επιτρέπει να αξιολογήσεις την τεχνολογία. Για εργασία παραγωγής που απαιτεί εμπορικά δικαιώματα, το επίπεδο Pro στα $35/μήνα αντιπροσωπεύει μια λογική τιμή εισόδου για μια τόσο πρωτοποριακή ικανότητα.

Γιατί Έχει Σημασία η Χωρική Νοημοσύνη

"Η χωρική νοημοσύνη είναι η καθοριστική πρόκληση της επόμενης δεκαετίας." - Fei-Fei Li

Η Li υποστηρίζει ότι η σημερινή ΤΝ έχει έναν θεμελιώδη περιορισμό: συλλογίζεται ανεπαρκώς για τον τρισδιάστατο χώρο. Τα γλωσσικά μοντέλα παραισθάνονται τη φυσική. Τα μοντέλα βίντεο δημιουργούν αδύνατες γεωμετρίες. Οι γεννήτριες εικόνων δυσκολεύονται με συνεπείς χωρικές σχέσεις.

Τρέχουσες Προσεγγίσεις
Τα μοντέλα βίντεο δημιουργούν ακολουθίες καρέ χωρίς αληθινή τρισδιάστατη κατανόηση. Οι κινήσεις της κάμερας αποκαλύπτουν ασυνέπειες. Τα αντικείμενα αλλάζουν θέση ή εξαφανίζονται.
Χωρική Νοημοσύνη
Η εγγενής τρισδιάστατη αναπαράσταση επιτρέπει φυσικά συνεπείς κόσμους. Μετακίνησε την κάμερα ελεύθερα. Το περιβάλλον παραμένει επειδή υπάρχει ως γεωμετρία, όχι ως εικονοστοιχεία.

Για τη ρομποτική, αυτό έχει τεράστια σημασία. Ένα ρομπότ που πλοηγείται σε μια κουζίνα χρειάζεται χωρική κατανόηση, όχι πρόβλεψη καρέ. Για οπτικά εφέ, οι σκηνοθέτες χρειάζονται εξερευνήσιμα περιβάλλοντα, όχι σταθερές τροχιές κάμερας.

Περιπτώσεις Χρήσης που Παίρνουν Μορφή

Παιχνίδια Δημιούργησε περιβαλλοντικούς χώρους και χώρους υποβάθρου. Οι ανεξάρτητοι προγραμματιστές μπορούν να δημιουργήσουν περιοχές εξερεύνησης που θα απαιτούσαν μήνες παραδοσιακής καλλιτεχνικής παραγωγής.

Οπτικά Εφέ Η προ-απεικόνιση γίνεται διαδραστική. Σχεδίασε μια σκηνή χωρικά, έπειτα εξερεύνησε γωνίες κάμερας πριν δεσμευτείς σε λήψεις.

Αρχιτεκτονική Μετέτρεψε κατόψεις σε εξερευνήσιμες περιηγήσεις. Οι πελάτες βιώνουν χώρους πριν ξεκινήσει η κατασκευή.

Εκπαίδευση Η Li οραματίζεται φοιτητές να περπατούν μέσα σε ένα κύτταρο, χειρουργούς να εξασκούνται μέσα σε ανατομικές προσομοιώσεις.

Επέκταση Κόσμου και Λειτουργία Συνθέτη

Δύο χαρακτηριστικά αντιμετωπίζουν τους περιορισμούς κλίμακας:

Επέκταση Κόσμου σου επιτρέπει να επεκτείνεις έναν δημιουργημένο κόσμο μία φορά, προσθέτοντας λεπτομέρεια στις περιοχές άκρων όπου η ποιότητα συνήθως υποβαθμίζεται. Αυτό ωθεί τα όρια του εξερευνήσιμου χώρου πέρα από τα αρχικά όρια δημιουργίας.

Λειτουργία Συνθέτη συνδυάζει πολλαπλούς κόσμους σε μεγαλύτερα περιβάλλοντα. Δημιούργησε μεμονωμένα δωμάτια, έπειτα ένωσέ τα σε ένα πλήρες κτίριο.

Αυτά τα εργαλεία αναγνωρίζουν τους τρέχοντες περιορισμούς ενώ παρέχουν πρακτικές λύσεις.

Το Ανταγωνιστικό Τοπίο

Το Marble εισέρχεται σε ένα πολυσύχναστο πεδίο:

ΠροϊόνΠροσέγγισηΔιαφοροποιητής
Decart OasisΔημιουργία παιχνιδιών σε πραγματικό χρόνοΔιαδραστικό, αλλά οι κόσμοι μετατοπίζονται κατά την εξερεύνηση
Google GenieΔημιουργία κόσμων παιχνιδιώνΠρόβλεψη καρέ χωρίς αληθινό 3D
OdysseyΜοντέλα μόνιμου κόσμουΕστίαση σε επιχειρήσεις
World Labs MarbleΣτατική δημιουργία 3DΚατεβάσιμο, επεξεργάσιμο, έτοιμο για VR

Ο συμβιβασμός είναι ξεκάθαρος. Τα μοντέλα σε πραγματικό χρόνο όπως το Oasis προσφέρουν άμεση ανταπόκριση αλλά αστάθεια. Το Marble δίνει προτεραιότητα στη μονιμότητα και την επεξεργασιμότητα έναντι της διαδραστικότητας.

Σύνδεση με τη Δημιουργία Βίντεο

💡

Για το υπόβαθρο των αρχιτεκτονικών διάχυσης που χρησιμοποιούνται στη χωρική ΤΝ, δείτε την τεχνική επισκόπησή μας για τους μετασχηματιστές διάχυσης.

Πώς σχετίζεται η δημιουργία τρισδιάστατου κόσμου με το βίντεο; Μοιράζονται μαθηματικά θεμέλια σε μοντέλα διάχυσης, αλλά λύνουν διαφορετικά προβλήματα.

Η δημιουργία βίντεο δημιουργεί χρονικές ακολουθίες, καρέ μετά καρέ. Η χωρική ΤΝ δημιουργεί γεωμετρικές αναπαραστάσεις, επιφάνειες και όγκους. Το βίντεο απαντά "τι συμβαίνει μετά;" Η χωρική ΤΝ απαντά "τι υπάρχει εδώ;"

Το σημείο σύγκλισης: πλοηγήσιμο βίντεο. Δημιούργησε έναν τρισδιάστατο κόσμο, έπειτα απόδωσε βίντεο καθώς κινείσαι μέσα του. Αυτή η προσέγγιση προσφέρει έλεγχο κάμερας αδύνατο με την καθαρή δημιουργία βίντεο.

Περιορισμοί που Πρέπει να Λάβεις υπόψη

Το Marble δεν είναι μια πλήρης λύση:

  • Χωρίς κινούμενους χαρακτήρες ή δυναμικά στοιχεία
  • Τα όρια δημιουργίας μπορεί να περιορίσουν τις ροές εργασίας παραγωγής
  • Η υποβάθμιση άκρων απαιτεί περάσματα επέκτασης
  • Μόνο στατικά περιβάλλοντα

Για κινούμενο περιεχόμενο, εξακολουθείς να χρειάζεσαι μοντέλα δημιουργίας βίντεο. Το Marble διαπρέπει σε περιβάλλοντα και χώρους, όχι σε ηθοποιούς ή δράσεις.

Η Μεγαλύτερη Εικόνα

Η Fei-Fei Li βλέπει τη χωρική νοημοσύνη ως απαραίτητη για την πρόοδο της ΤΝ:

"Νομίζω ότι όλοι έχουμε την ευθύνη να οδηγήσουμε την ΤΝ σε μια καλύτερη κατάσταση καθώς γίνεται πιο ισχυρή. Όλοι θα πρέπει να θέλουμε η ανθρωπότητα να επικρατήσει και να ευδοκιμήσει."

Το όραμά της εκτείνεται πέρα από τη διασκέδαση. Ιατρικές προσομοιώσεις όπου οι φοιτητές εξερευνούν την ανατομία. Επιστημονικές απεικονίσεις όπου οι ερευνητές πλοηγούνται σε μοριακές δομές. Περιβάλλοντα ρομποτικής εκπαίδευσης που δημιουργούνται κατά παραγγελία.

Το Marble είναι το πρώτο βήμα, μια εμπορική απόδειξη της ιδέας. Η έρευνα συνεχίζεται προς πιο δυναμική, διαδραστική και φυσικά ακριβή δημιουργία κόσμου.

Ξεκινώντας

Η World Labs προσφέρει ένα δωρεάν επίπεδο με 4 δημιουργίες ανά μήνα. Αρκετά για να αξιολογήσεις την τεχνολογία και να κατανοήσεις τους περιορισμούς της.

Για δημιουργούς που ήδη εργάζονται σε 3D, η ικανότητα εξαγωγής πλέγματος ενσωματώνεται με υπάρχουσες ροές εργασίας. Για παραγωγούς βίντεο, η εξαγωγή βίντεο παρέχει δυνατότητες προ-απεικόνισης μη διαθέσιμες αλλού.

💡

Σχετική ανάγνωση: Ο οδηγός μας για τη συνέπεια χαρακτήρων σε βίντεο με ΤΝ καλύπτει τεχνικές για τη διατήρηση συνοχής σε παραγόμενο περιεχόμενο, μια πρόκληση που το Marble αντιμετωπίζει μέσω μόνιμης τρισδιάστατης αναπαράστασης.

Η μετάβαση από τη δημιουργία 2D στη δημιουργία τρισδιάστατου κόσμου αντιπροσωπεύει μια θεμελιώδη μετατόπιση σε αυτό που η ΤΝ μπορεί να παράγει. Το Marble κάνει αυτή τη μετατόπιση προσβάσιμη.

Σας βοήθησε αυτό το άρθρο;

Alexis

Alexis

Μηχανικός AI

Μηχανικός AI από τη Λωζάνη που συνδυάζει το βάθος της έρευνας με την πρακτική καινοτομία. Μοιράζει τον χρόνο του μεταξύ αρχιτεκτονικών μοντέλων και αλπικών κορυφών.

Σχετικά Άρθρα

Συνεχίστε την εξερεύνηση με αυτά τα σχετικά άρθρα

Runway GWM-1: Το Γενικό Μοντέλο Κόσμου που Προσομοιώνει την Πραγματικότητα σε Πραγματικό Χρόνο
RunwayWorld Models

Runway GWM-1: Το Γενικό Μοντέλο Κόσμου που Προσομοιώνει την Πραγματικότητα σε Πραγματικό Χρόνο

Το GWM-1 της Runway σηματοδοτεί μια αλλαγή παραδείγματος από τη δημιουργία βίντεο στην προσομοίωση κόσμων. Ανακαλύψτε πώς αυτό το αυτοπαλίνδρομο μοντέλο δημιουργεί εξερευνήσιμα περιβάλλοντα, φωτορεαλιστικά avatars και προσομοιώσεις εκπαίδευσης ρομπότ.

Read
Το YouTube Φέρνει το Veo 3 Fast στα Shorts: Δωρεάν Δημιουργία Βίντεο με AI για 2,5 Δισεκατομμύρια Χρήστες
YouTubeVeo 3

Το YouTube Φέρνει το Veo 3 Fast στα Shorts: Δωρεάν Δημιουργία Βίντεο με AI για 2,5 Δισεκατομμύρια Χρήστες

Η Google ενσωματώνει το μοντέλο Veo 3 Fast απευθείας στα YouTube Shorts, προσφέροντας δωρεάν δημιουργία βίντεο από κείμενο με ήχο για δημιουργούς παγκοσμίως. Τι σημαίνει αυτό για την πλατφόρμα και την προσβασιμότητα του AI βίντεο.

Read
Γλωσσικά Μοντέλα Βίντεο: Τα Νέα Σύνορα Μετά τα LLM και τους AI Agents
World ModelsVideo Language Models

Γλωσσικά Μοντέλα Βίντεο: Τα Νέα Σύνορα Μετά τα LLM και τους AI Agents

Τα μοντέλα κόσμου διδάσκουν στην AI να κατανοεί τη φυσική πραγματικότητα, επιτρέποντας στα ρομπότ να σχεδιάζουν ενέργειες και να προσομοιώνουν αποτελέσματα πριν κάνουν την πρώτη κίνηση.

Read

Σας άρεσε αυτό το άρθρο;

Ανακαλύψτε περισσότερες γνώσεις και μείνετε ενημερωμένοι με το πιο πρόσφατο περιεχόμενό μας.

World Labs Marble: Το Όραμα της Fei-Fei Li για τη Χωρική Νοημοσύνη