Meta Pixel
HenryHenry
7 min read
1352 ord

Videosprogmodeller: Den næste grænse efter LLM'er og AI-agenter

Verdensmodeller lærer AI at forstå fysisk virkelighed, så robotter kan planlægge handlinger og simulere resultater, før de bevæger en eneste aktuator.

Videosprogmodeller: Den næste grænse efter LLM'er og AI-agenter

Store sprogmodeller erobrede tekst. Synsmodeller mestrede billeder. AI-agenter lærte at bruge værktøjer. Nu er en ny kategori ved at dukke op, som kan overgå dem alle: videosprogmodeller, eller det forskere i stigende grad kalder "verdensmodeller."

Vi har brugt de sidste par år på at lære AI at læse, skrive og endda ræsonnere gennem komplekse problemer. Men her er sagen: alt det foregår i det digitale domæne. ChatGPT kan skrive et digt om at gå gennem en skov, men den aner ikke, hvordan det faktisk føles at træde over en væltet stamme eller dukke sig under en lav gren.

Verdensmodeller er her for at ændre det.

Hvad er videosprogmodeller?

💡

Videosprogmodeller (VLM'er) behandler både visuelle sekvenser og sprog samtidigt, hvilket gør det muligt for AI at forstå ikke bare hvad der er i et billede, men hvordan scener udvikler sig over tid, og hvad der kan ske næste gang.

Tænk på dem som en udvikling af syns-sprogmodeller, men med en afgørende tilføjelse: temporal forståelse. Hvor en standard VLM ser på et enkelt billede og besvarer spørgsmål om det, observerer en videosprogmodel sekvenser, der udfolder sig, og lærer de regler, der styrer fysisk virkelighed.

Dette er ikke bare akademisk nysgerrighed. De praktiske konsekvenser er forbløffende.

Når en robot skal tage en kaffekop, kan den ikke bare genkende "kop" i et billede. Den skal forstå:

  • Hvordan objekter opfører sig, når de skubbes eller løftes
  • Hvad der sker, når væsker skvulper
  • Hvordan dens egne bevægelser påvirker scenen
  • Hvilke handlinger der er fysisk mulige versus umulige

Det er her, verdensmodeller kommer ind i billedet.

Fra simulering til handling

🤖

Fysisk intelligens

Verdensmodeller genererer videolignende simuleringer af mulige fremtider, så robotter kan "forestille sig" resultater, før de forpligter sig til handlinger.

Konceptet er elegant: i stedet for at hardkode fysiske regler, træner du AI på millioner af timers video, der viser, hvordan verden faktisk fungerer. Modellen lærer tyngdekraft, friktion, objektpermanens og kausalitet ikke fra ligninger, men fra observation.

NVIDIAs Cosmos repræsenterer et af de mest ambitiøse forsøg på dette. Deres proprietære verdensmodel er designet specifikt til robotapplikationer, hvor forståelse af fysisk virkelighed ikke er valgfri. Det er overlevelse.

Google DeepMinds Genie 3 tager en anden tilgang og fokuserer på interaktiv verdensgenerering, hvor modellen kan "spilles" som et videospilmiljø.

Traditionel robotteknologi

Håndkodede fysikregler, skrøbelige edge cases, dyre sensorarrays, langsom tilpasning til nye miljøer

Verdensmodeltilgang

Lært fysisk intuition, gradvis nedbrydning, enklere hardwarekrav, hurtig overførsel til nye scenarier

PAN-eksperimentet

Forskere ved Mohamed bin Zayed University afslørede for nylig PAN, en generel verdensmodel, der udfører det, de kalder "tankeeksperimenter" i kontrollerede simuleringer.

🧪

Sådan fungerer PAN

Ved hjælp af Generativ Latent Forudsigelse (GLP) og Causal Swin-DPM-arkitektur opretholder PAN scenesammenhæng over udvidede sekvenser, mens den forudsiger fysisk plausible resultater.

Den vigtigste innovation er at behandle verdensmodellering som et generativt videoproblem. I stedet for eksplicit at programmere fysik lærer modellen at generere videfortsættelser, der respekterer fysiske love. Når den får en startscene og en foreslået handling, kan den "forestille sig" hvad der sker næste gang.

Dette har dybe implikationer for robotteknologi. Før en humanoid robot rækker ud efter den kaffekop, kan den køre hundredvis af simulerede forsøg og lære, hvilke tilgangsvinkler der virker, og hvilke der ender med kaffe på gulvet.

Fremtiden med en milliard robotter

1B
Forventede humanoide robotter i 2050
3x
Vækst i robotics AI-investeringer siden 2023

Det er ikke vilkårlige tal trukket for dramatisk effekt. Brancheprognoser peger virkelig på en fremtid, hvor humanoide robotter bliver lige så almindelige som smartphones. Og hver eneste af dem vil have brug for verdensmodeller for at fungere sikkert sammen med mennesker.

Anvendelserne strækker sig ud over humanoide robotter:

Nu

Fabrikssimuleringer

Træning af arbejdere i virtuelle miljøer, før de sendes til fysiske fabriksgulve

2025

Autonome køretøjer

Sikkerhedssystemer, der forudsiger ulykkesscenarier og tager forebyggende handling

2026

Lagernavigation

Robotter, der forstår komplekse rum og tilpasser sig skiftende layouts

2027+

Hjemmeassistenter

Robotter, der sikkert navigerer i menneskelige boligområder og håndterer hverdagsgenstande

Hvor videogenerering møder verdensforståelse

Hvis du har fulgt med i AI-videogenerering, bemærker du måske noget overlap her. Værktøjer som Sora 2 og Veo 3 genererer allerede bemærkelsesværdigt realistisk video. Er de ikke også verdensmodeller?

Ja og nej.

OpenAI har eksplicit positioneret Sora som havende verdenssimuleringsfunktioner. Modellen forstår tydeligvis noget om fysik. Se på enhver Sora-generation, og du vil se realistisk belysning, plausibel bevægelse og objekter, der opfører sig for det meste korrekt.

Men der er en afgørende forskel mellem at generere video, der ser plausibel ud, og virkelig at forstå fysisk kausalitet. Nuværende videogeneratorer er optimeret til visuel realisme. Verdensmodeller er optimeret til forudsigelsesnøjagtighed.

💡

Testen er ikke "ser dette virkeligt ud?" men "givet handling X, forudsiger modellen korrekt resultat Y?" Det er en meget sværere standard at opfylde.

Hallucinationsproblemet

Her er den ubehagelige sandhed: verdensmodeller lider af de samme hallucinationsproblemer, som plager LLM'er.

Når ChatGPT selvsikkert fastslår et falsk faktum, er det irriterende. Når en verdensmodel selvsikkert forudsiger, at en robot kan gå gennem en væg, er det farligt.

⚠️

Verdensmodelhallucinationer i fysiske systemer kan forårsage reel skade. Sikkerhedsbegrænsninger og verifikationslag er essentielle før udrulning sammen med mennesker.

Nuværende systemer nedbrydes over længere sekvenser og mister sammenhæng, jo længere de projicerer ind i fremtiden. Dette skaber en grundlæggende spænding: de mest nyttige forudsigelser er langsigtede, men de er også de mindst pålidelige.

Forskere angriber dette problem fra flere vinkler. Nogle fokuserer på bedre træningsdata. Andre arbejder på arkitektoniske innovationer, der opretholder scenesammenhæng. Atter andre går ind for hybride tilgange, der kombinerer lærte verdensmodeller med eksplicitte fysiske begrænsninger.

Qwen 3-VL gennembruddet

På syns-sprogsiden repræsenterer Alibabas Qwen 3-VL den nuværende state of the art for open source-modeller.

Flagskibsmodellen Qwen3-VL-235B konkurrerer med førende proprietære systemer på tværs af multimodale benchmarks, der dækker generel spørgsmål og svar, 3D-grounding, videoforståelse, OCR og dokumentforståelse.

Det, der gør Qwen 3-VL særligt interessant, er dens "agentiske" evner. Modellen kan betjene grafiske grænseflader, genkende UI-elementer, forstå deres funktioner og udføre virkelige opgaver gennem værktøjspåkaldelse.

Dette er broen mellem forståelse og handling, som verdensmodeller har brug for.

Hvorfor dette betyder noget for skabere

Hvis du er videoskaber, filmskaber eller animator, kan verdensmodeller virke fjerne fra dit daglige arbejde. Men konsekvenserne er tættere på, end du tror.

Nuværende AI-videoværktøjer kæmper med fysisk konsistens. Objekter klipper gennem hinanden. Tyngdekraften opfører sig inkonsekvent. Årsag og virkning bliver blandet sammen. Alt dette er symptomer på modeller, der kan generere realistiske pixels, men som ikke virkelig forstår de fysiske regler, der ligger til grund for det, de afbilder.

Verdensmodeller trænet på massive videodatasæt kunne i sidste ende føde tilbage til videogenerering og producere AI-værktøjer, der i sagens natur respekterer fysiske love. Forestil dig en videogenerator, hvor du ikke behøver at prompte for "realistisk fysik", fordi modellen allerede ved, hvordan virkeligheden fungerer.

💡

Relateret læsning: For mere om, hvordan videogenerering udvikler sig, se vores dybdegående artikel om diffusions-transformere og verdensmodeller i videogenerering.

Vejen fremad

Verdensmodeller repræsenterer måske det mest ambitiøse mål inden for AI: at lære maskiner at forstå fysisk virkelighed, som mennesker gør. Ikke gennem eksplicit programmering, men gennem observation, slutning og fantasi.

Vi er stadig tidligt på vej. Nuværende systemer er imponerende demonstrationer, ikke produktionsklare løsninger. Men retningen er klar.

Hvad vi har nu:

  • Begrænset sekvenssammenhæng
  • Domænespecifikke modeller
  • Høje beregningsomkostninger
  • Forskningsstadie-udrulninger

Hvad der kommer:

  • Udvidet temporal forståelse
  • Generelle verdensmodeller
  • Edge device-udrulning
  • Kommerciel robotintegration

De virksomheder, der investerer tungt i dette område, NVIDIA, Google DeepMind, OpenAI og talrige startups, satser på, at fysisk intelligens er den næste grænse efter digital intelligens.

I betragtning af hvor transformative LLM'er har været for tekstbaseret arbejde, forestil dig virkningen, når AI kan forstå og interagere med den fysiske verden lige så flydende.

Det er løftet fra videosprogmodeller. Det er derfor, denne grænse betyder noget.

💡

Yderligere læsning: Udforsk hvordan AI-video allerede transformerer kreative arbejdsgange i vores dækning af native lydgenerering og virksomhedsadoption.

Var denne artikel nyttig?

Henry

Henry

Kreativ teknolog

Kreativ teknolog fra Lausanne, der udforsker hvor AI møder kunst. Eksperimenterer med generative modeller mellem elektroniske musiksessioner.

Relaterede artikler

Fortsæt med at udforske disse relaterede indlæg

Kunne du lide artiklen?

Få mere indsigt, og hold dig opdateret med vores nyeste indhold.

Videosprogmodeller: Den næste grænse efter LLM'er og AI-agenter