Weltmodeller Iwwer Videoen: Firwat Spiller a Robotik déi echte Beweisgrund fir AGI sinn
Vun DeepMind Genie bis AMI Labs, Weltmodeller ginn stëll a stëll déi Fondatioun fir AI deen d'Physik wierklech versteet. De 500 Milliard Dollar Spill-Maart kéint sinn, wou se sech fir d'éischt beweise.

Wéi Yann LeCun seng Ofkehr vu Meta annoncéiert huet fir AMI Labs mat 500 Milliounen Euro Finanzéierung ze grënden, huet hien ausgedréckt wat vill Fuerscher roueg fir Joer gelaaft hunn. Grouss Sproochmadeller, allem hiren imponéierenden Fäegkeeten an Trotz, representéieren eng Sackgaass op de Wee zu artifiziel allgemenger Intelligenz. Si viraussoe Marker ouni d'Realitéit ze verstoen.
Wat ass d'Alternativ? Weltmodeller. Systemer déi léieren fir ze simuléieren wéi d'kierperlech Welt funktionéiert.
Déi Fundamental Limitatioun vu Sproochmadeller
Weltmodeller léieren virauszepréizéieren wat als nächst an visueller Environnementer geschéit, net just wéi eng Wuert als nächst an Texter kommen. Dëst erfuerdert d'Verständnis vu Physik, Objekt Dauerhaftegkeet an Kausalitéit.
Sproochmadeller sinn ausgezeechent am Pattern Matching iwwer Texter. Si kënnen Poesie schreiwen, Code debuggen an Gespréicher halen déi bemierkenswäert mënschlech fillen. Awer fragt GPT-4 wat geschéit, wann du e Ball lafälls, an et verlaasst op memoriséiert Beschreiwungen éischter wéi genounn kierperlech Intuïtioun.
Dëst ass wichteg, well Intelligenz, wéi mir se an der biologescher Welt erliewen, ass grondlech an kierperlech Realitéit verankert. E Kleng-Kand deen léiert Blocken ze stapelen, entwéckelt eng intuitiv Verständnis vu Gravitéit, Ausglach an Material-Eegeschaften laang ier d'Sprooch ze léieren. Dës verköerperlicht Gedankengank, dës Gefill dofir wéi d'Welt funktionéiert, representéiert just what aktuell AI-Systemer feelen.
Weltmodeller siche dës Lück ze fëllen. Anstatt den nächste Marker viraussoen, viraussoen si den nächste Bild, den nächste kierperlech Staat, déi nächst Konsequenz vun enger Aktioun.
Dräi Approchen zu Welt-Verständnis
De Rennen fir Welt-Verständnis-AI ze bauen ass an dräi ënnerscheendlech Paradigmer gedeelt, jidderee mat aneren Stäerkten.
Trainiéiert op massiv Video-Datensätz fir implizit Physik ze léieren. Beispiller sinn Sora a Veo. Gutt beim Generéieren vu plausiblen Fortsetzungen awer kämpfen mat interaktiv Szenarien.
Bauen explizit Physik-Motoueren a trainiéieren AI fir ze navigéieren. Erfuerdert dauer Handarbecht vu Environnementer awer bitt präzis Physik Accuratesse.
Déi drëtt Approche, a vläicht déi Verspriechendscht, kombinéiert béid: Welt-Dynamiken vun Video ze léieren wärend d'Fäegkeet behuele fir mat dem Environnementer ze intérageiren an et z'manipuléieren. Dëst ass wou Spiller essentiell ginn.
Spiller, de Perfecte Trainings Gronn
Videospiller bidden eppes Eenzegaartegt: interaktiv Environnementer mat konsekuenter Physik Regeln, onendlech Variatioun, an kloer Erfolg Metrics. Am Géigesaz zu real-Welt Robotik, déi deier Hardware erfuerdert an Sécherheets-Konzernen presentéiert, bidden Spiller onbegrenzt Feeler ouni Konsequenz.
DeepMind huet dëse Potential fréi erkannt. Hir Genie Systeem kann ganz nei spielbar Environnementer vun engem eenzegen Bild generéieren. Gib et eng Skizz vun engem Platform Level, an et schafft eng Welt mat konsekuenter Physik wou Charaktere sprangen, falen an mat Objeten op gehéiregem Wee intérageieren.
Wat Genie bemierkenswäert mécht ass net just Generatioun awer Compréhensioun. De Systeem léiert generaliséierbar Physik Konzepter déi über ënnerscheendlech visual Stiler a Spill Sorten iwwertraangen. E Modell trainéiert op Mario-Stil Plattforme entwéckelt Intuïtiounen iwwer Gravitéit a Collisioun déi gläichmaass op Handgezeechent Indie Spiller a realisteschen 3D-Environnementer aplikabel sinn.
Vun Spiller zu Roboter
De Spill-zu-Roboter Pipeline ass net theoretesch. Firmen benotzen et schonn.
Simulatioun Lück Identifizéiert
Fuerschung weist dat Madeller trainéiert reng an Simulatioun kämpfen mat real-Welt Meslere: variéiert Liicht, onfullkomm Sensoren, onerwartete Objeten.
Hybrid Approchen Erscheinen
Teams kombinéieren Spill-trainéiert Weltmodeller mat limitéiert Real-Welt Fine-Tuning, dramatesch reduzéierend d'Daten noutwendeg fir Roboter Trainéierung.
Kommerziell Deployement Beginnst
Éischt Warehouse Roboter mat Weltmodeller Reckbounen ginn an Productioun, handléngen neie Objeten ouni explizit Programméierung.
D'Insight déi dës Transitioun drëft ass einfach: Physik ass Physik. E Modell deen wierklech versteet wéi Objeten falen, rutschin an kollidéieren an engem Videospill soll, mat passender Adaptatioun, déi selwecht Prinzipien an der real Welt verstoen. D'Visual Erscheinung ännert, awer déi unterleglech Dynamiken bleiwen konstant.
Tesla huet eng Versioun vun dëser Strategie mat hire Optimus Roboter verfoll, trainéiert fir d'éischt an Simulatioun ier an kontrolléiert Fabrik-Environnementer depléiert. De Limitéierend Faktor ass ëmmer d'Lucke tëschent simuléiert an real Physik gin. Weltmodeller trainéiert op divers Video Donnéeën kéinten dës Lucke endlech brécken.
De AMI Labs Wett
Yann LeCun seng nei Venture, AMI Labs, representéiert de gréissten eenzelen Investitioun an Weltmodeller Fuerschung bis ewell. Mat 500 Milliounen Euro an europäescher Finanzéierung an e Team rekrutéiert vun Meta, DeepMind, an akademesche Labs, si verfollegen wat LeCun "Objektiv-drëwe AI" nennt.
Am Géigesaz zu LLMs déi Marker viraussoen, fokusseet AMI seng Approche op d'Representatiounen vun der Welt ze léieren déi Planéierung an Réisonnement iwwer kierperlech Konsequenzen erméiglichen.
D'technesh Fondatioun baut op Joint Embedding Predictive Architecture, e Kader deen LeCun fir Joer befuerdert huet. Eischter wéi Pixel-Niveau Viraussoen ze generéieren, wat enormt Rechenkraaft erfuerdert, léiert JEPA abstrakt Representatiounen déi d'essentiell Struktur vu kierperlecht Systemer fangen.
Denk drun sou: e Mënsch deen eng Ball ob e Cliff rullen kuckt simuléiert net all Pixel vun der Boll Trajektoire. Amplaz, mir erkenne d'abstrakt Situatioun (Ball, Kante, Gravitéit) an viraussoen d'Resultat (Fal). JEPA zielt dës effizient, abstrakt Réisonnement ze fännen.
Implikatiounen fir AI Video Generatioun
Dës Fuerschungs Bahn ass profond wichteg fir kreatib Applikatioune. Aktuell AI Video Generatorèn produzéieren imponerend Resultater awer leiden ënner temporal Inconsistenz. Charaktere transforméieren, Physik briechen, an Objeten erscheinen a verschaffen.
Weltmodeller bidden eng méiglech Léisung. E Generator deen wierklech Physik versteet soll Videoen produzéieren wou Objeten konsekuent Regelen gehorchen, wou gefalen Elementer viraussehbar falen, wou Reflektiounen korrekt sinn.
Madeller generéieren visuell plausibel Kader ouni Physik Konsistenz z'enforceieren. Funktionnéiert fir kuerz Klipp awer brécht iwwer längere Dauer.
Physik Konsistenz emärgt vun léiert Weltdynamiken. Méi laang, méi kohärent Videoen ginn méiglech, well de Modell eng intern Staat vun der Welt behält.
Mir sinn schonn fréi Zeechen vun dëser Transitioun siicht. Runway seng GWM-1 representéiert hire Wett op Weltmodeller, a Veo 3.1 seng verbesséiert Physik Simulatioun suggeréiert datt Google ähnlech Prinzipien incorporéiert.
D'AGI Verbindung
Firwat ass all dëst wichteg fir artifiziel allgemeng Intelligenz? Well genounn Intelligenz méi wéi Sprooch Manipulatioun erfuerdert. Et erfuerdert d'Verständnis vu Kausalitéit, Viraussoe vun Konsequenzen, an Planéierung vu Aktiounen an enger kierperlecht Welt.
Verköerperlicht Cognition
Wierklech Intelligenz maa Verankerjung an kierperlech Realitéit erfuerdert, net just statistesch Musteren an Texter.
Interaktiv Lernen
Spiller bidden de perfekten Prüfstand: räich Physik, kloer Feedback, onendlech Iteratioun.
Roboter Applikatioun
Weltmodeller trainéiert an Spiller kéinten zu real-Welt Robotik mat minimaler Adaptatioun iwwertragen.
D'Fuerscher déi dës Aarbecht drëwen sinn vorsichteg net z'behaapten, datt se AGI bauen. Awer si argumentéieren öberzéiglend dat ouni Welt-Verständnis, kënne mir net Systemer bauen, déi wierklech denken éischter wéi just auto-vervollständéieren.
Wat ass als Nächst
Déi nächst zwee Joer wäert kritisch sinn. Mehrerer Entwécklungen fir ze iwwerwaachen:
- ○AMI Labs éischt Public Demonstratiounen (erwaardert Mid-2026)
- ○Intégratioun vu Weltmodeller an Haaptvideos Generatorèn
- ○Spill Motor Firmen (Unity, Unreal) deen Weltmodeller APIs bäifügt
- ○Éischt Consumer Roboter mat Spill-trainéiert Weltmodeller
De Spill Maart, projizéiert iwwer 500 Milliarden Dollar bis 2030 z'excédéieren, representéiert fertile Bréck fir Weltmodeller Deployement. Investoren gesinn Weltmodeller net just wéi Fuerschungs Curositäten awer wéi Fondatioun Technologie fir interaktiv Ënnerhaltoung, Simulatioun, an Robotik.
D'Still Revolutioun
Onglech dem heftegen Hype rond ChatGPT, entrollt d'Weltmodeller Revolutioun roueg an Fuerschungslaborateren a Spill Studios. Et sinn keng Viral Demos, keng täglech Nouvellen iwwer d'Néist Duerchrësch.
Awer d'Implikatioune kéinten méi profond sinn. Sproochmadeller hunn wierklechen mir interagéieren mat Texter. Weltmodeller kéinten wierklechen AI mat Realitéit interagéiert.
Fir déi Mënsche vun eis, déi an AI Video Generatioun funktionnéieren, representéiert dës Fuerschung beid Menace a Gelegenheet. Eis aktuell Tools méinten primitiv a Retrospekk, wéi fréi CGI vergaren zu modern visuell Effekter. Awer d'unterleglech Prinzip, visuell Inhalt duerch léiert Madeller ze generéieren, wäert manner méi stäerk ginn, wéi dës Madeller fangen ze reel verstoen d'Welten déi se schafen.
Weider Liese: Erkenne wéi Diffusion Transformers d'Arkitektur Fondatioun fir vill Weltmodeller bidden, oder léiert iwwer Real-Temps Interaktiv Generatioun déi op Weltmodeller Prinzipien baut.
De Wee vun Videospill Physik zu artifiziel allgemeng Intelligenz maa geworden schéngen. Awer Intelligenz, wou mir et fannen, emärgt vun Systemer, déi hier Environnement verstinn an d'Konsequenz vun hire Aktiounen viraussoen. Spiller ginn eis e sëcher Plaz fir sou Systemer ze bauen an ze testen. D'Roboter, d'Kreatif Tools, a vläicht genunn Machine Verständnis wäert verfollegen.
War dësen Artikel hëllefräich?

Alexis
KI-IngenieurKI-Ingenieur aus Lausanne, deen Fuerschungsdetail mat praktescher Innovatioun kombinéiert. Deelt seng Zäit tëscht Modell-Architekturen an alpinne Gëpfelen.
Verbonne Artikelen
Entdeckt weider mat dësen verbonnenen Artikelen

Yann LeCun verléisst Meta fir $3,5 Milliarden op World Models ze setzen
De Turing Award Gewënner lancéiert AMI Labs, en neie Startup deen op World Models fokusséiert anstatt LLMs, mat Ziler an der Robotik, Gesondheetswiesen a Video-Verständnis.

Runway GWM-1: Dat allgemeng Weltmodell dat d'Realitéit an Echtzäit simuléiert
Runway säin GWM-1 markéiert e Paradigmawiessel vun der Videogeneratioun zur Weltsimulatioun. Entdeckt wéi dëst autoregressivt Modell exploréierbar Ëmfeld, photoreaalistesch Avatare a Roboter-Trainingssimulatioune kreéiert.

Video Sproochmodeller: Déi nächst Frontier no LLMs an AI Agenten
Weltmodeller léieren AI d'kierperlech Realitéit ze verstoen, wat Roboter erlaabt Aktiounen ze plangen a Resultater ze simuléieren ier een eenzegen Aktuator sech beweegt.