Video valodas modeļi: Nākamā robeža pēc LLM un AI aģentiem

Lielie valodas modeļi iekaroja tekstu. Vizuālie modeļi apguva attēlus. AI aģenti iemācījās izmantot rīkus. Tagad parādās jauna kategorija, kas varētu tos visus pārspēt: video valodas modeļi jeb, kā pētnieki tos arvien biežāk sauc, "pasaules modeļi."

Pēdējos gadus mēs pavadījām, mācot AI lasīt, rakstīt un pat spriest par sarežģītām problēmām. Bet šeit ir jautājums: tas viss notiek digitālajā pasaulē. ChatGPT var uzrakstīt jums dzejoli par pastaigāšanos pa mežu, bet tam nav ne jausmas, kā patiesībā jūtas pārkāpt kritušam kokam vai noliekties zem zema zara.

Pasaules modeļi ir šeit, lai to mainītu.

Kas ir video valodas modeļi?

💡

Video valodas modeļi (VLM) apstrādā vizuālās secības un valodu vienlaicīgi, ļaujot AI saprast ne tikai to, kas ir kadrā, bet arī to, kā ainas attīstās laika gaitā un kas varētu notikt tālāk.

Iedomājieties tos kā vizuāli-valodas modeļu evolūciju, bet ar būtisku papildinājumu: laika izpratni. Kamēr standarta VLM skatās uz vienu attēlu un atbild uz jautājumiem par to, video valodas modelis novēro, kā secības attīstās, un mācās noteikumus, kas pārvalda fizisko realitāti.

Tā nav tikai akadēmiska zinātkāre. Praktiskās sekas ir satriecošas.

Kad robotam jāpaceļ kafijas krūze, tas nevar vienkārši atpazīt "krūzi" attēlā. Tam jāsaprot:

✓Kā objekti uzvedas, kad tos stumj vai paceļ
✓Kas notiek, kad šķidrumi izšļakstās
✓Kā tā paša kustības ietekmē ainu
✓Kuras darbības ir fiziski iespējamas un kuras neiespējamas

Šeit ienāk pasaules modeļi.

No simulācijas uz darbību

🤖

Fiziskā inteliģence

Pasaules modeļi ģenerē video līdzīgas iespējamo nākotņu simulācijas, ļaujot robotiem "iztēloties" rezultātus pirms darbību veikšanas.

Koncepcija ir eleganta: tā vietā, lai cietā kodā ievadītu fizikas likumus, jūs trenējat AI uz miljoniem video stundu, kas parāda, kā pasaule patiesībā darbojas. Modelis mācās gravitāciju, berzi, objektu pastāvību un cēloņsakarību nevis no vienādojumiem, bet no novērojumiem.

NVIDIA Cosmos pārstāv vienu no visambiciozākajiem mēģinājumiem šajā jomā. Viņu patentētais pasaules modelis ir īpaši izstrādāts robotikas lietojumiem, kur fiziskās realitātes izpratne nav izvēles iespēja. Tā ir izdzīvošanas nepieciešamība.

Google DeepMind Genie 3 izvēlas citu pieeju, koncentrējoties uz interaktīvu pasauļu ģenerēšanu, kur modeli var "spēlēt" kā video spēles vidi.

✗Tradicionālā robotika

Manuāli kodēti fizikas noteikumi, trauslas robežsituācijas, dārgi sensoru masīvi, lēna adaptācija jaunām vidēm

✓Pasaules modeļu pieeja

Iemācīta fiziskā intuīcija, gracioza degradācija, vienkāršākas aparatūras prasības, ātra pārnese uz jauniem scenārijiem

PAN eksperiments

Pētnieki no Mohamed bin Zayed University nesen atklāja PAN, vispārēju pasaules modeli, kas veic to, ko viņi sauc par "domu eksperimentiem" kontrolētās simulācijās.

🧪

Kā PAN darbojas

Izmantojot Generative Latent Prediction (GLP) un Causal Swin-DPM arhitektūru, PAN uztur ainas saskaņotību ilgākās secībās, vienlaikus prognozējot fiziski ticamus rezultātus.

Galvenā inovācija ir pasaules modelēšanas uzskatīšana par ģeneratīva video problēmu. Tā vietā, lai skaidri programmētu fiziku, modelis mācās ģenerēt video turpinājumus, kas respektē fizikas likumus. Kad tam dod sākuma ainu un ierosinātu darbību, tas var "iztēloties," kas notiks tālāk.

Tam ir dziļas sekas robotikai. Pirms humanoīdais robots sniedzas pēc tās kafijas krūzes, tas var palaist simtiem simulētu mēģinājumu, mācoties, kuri pieejas leņķi darbojas un kuri beidzas ar kafiju uz grīdas.

Miljarda robotu nākotne

Prognozētie humanoīdie roboti līdz 2050. gadam

Robotikas AI investīciju pieaugums kopš 2023. gada

Šie nav patvaļīgi skaitļi, kas izvilkti dramatiskam efektam. Nozares prognozes patiešām norāda uz nākotni, kurā humanoīdie roboti kļūst tikpat izplatīti kā viedtālruņi. Un katram no tiem būs nepieciešami pasaules modeļi, lai droši darbotos līdzās cilvēkiem.

Lietojumi pārsniedz humanoīdos robotus:

Tagad

Rūpnīcu simulācijas

Darbinieku apmācība virtuālās vidēs pirms izvietošanas fiziskajās rūpnīcu telpās

2025

Autonomie transportlīdzekļi

Drošības sistēmas, kas prognozē negadījumu scenārijus un veic preventīvas darbības

2026

Noliktavu navigācija

Roboti, kas saprot sarežģītas telpas un pielāgojas mainīgiem izkārtojumiem

2027+

Mājas palīgi

Roboti, kas droši pārvietojas cilvēku dzīvojamās telpās un manipulē ar ikdienas objektiem

Kur video ģenerēšana satiekas ar pasaules izpratni

Ja sekojat līdzi AI video ģenerēšanai, iespējams, pamanījāt zināmu pārklāšanos. Rīki kā Sora 2 un Veo 3 jau ģenerē ievērojami reālistiskus video. Vai tie nav arī pasaules modeļi?

Jā un nē.

OpenAI ir skaidri pozicionējis Sora kā modeli ar pasaules simulācijas spējām. Modelis acīmredzami kaut ko saprot par fiziku. Apskatiet jebkuru Sora ģenerāciju, un jūs redzēsiet reālistisku apgaismojumu, ticamu kustību un objektus, kas uzvedas lielākoties pareizi.

Bet ir būtiska atšķirība starp ticami izskatīga video ģenerēšanu un patiesu fiziskās cēloņsakarības izpratni. Pašreizējie video ģeneratori ir optimizēti vizuālajam reālismam. Pasaules modeļi ir optimizēti prognozēšanas precizitātei.

💡

Tests nav "vai tas izskatās īsts?", bet "dotajai darbībai X, vai modelis pareizi prognozē rezultātu Y?" Tā ir daudz augstāka latiņa, ko pārlēkt.

Halucināciju problēma

Šeit ir nepatīkama patiesība: pasaules modeļi cieš no tām pašām halucināciju problēmām, kas nomoka LLM.

Kad ChatGPT pašpārliecināti paziņo nepatiesu faktu, tas ir kaitinoši. Kad pasaules modelis pašpārliecināti prognozē, ka robots var iziet cauri sienai, tas ir bīstami.

⚠️

Pasaules modeļu halucinācijas fiziskās sistēmās var radīt reālu kaitējumu. Drošības ierobežojumi un verifikācijas slāņi ir būtiski pirms izvietošanas līdzās cilvēkiem.

Pašreizējās sistēmas degradējas garākās secībās, zaudējot saskaņotību, jo tālāk tās prognozē nākotnē. Tas rada fundamentālu spriedzi: visnoderīgākās prognozes ir ilgtermiņa, bet tās ir arī vismazāk uzticamas.

Pētnieki uzbrūk šai problēmai no vairākiem leņķiem. Daži koncentrējas uz labākiem treniņu datiem. Citi strādā pie arhitektūras inovācijām, kas uztur ainas konsekvenci. Vēl citi atbalsta hibrīdās pieejas, kas apvieno iemācītos pasaules modeļus ar skaidriem fiziskiem ierobežojumiem.

Qwen 3-VL izrāviens

Vizuāli-valodas modeļu pusē Alibaba Qwen 3-VL pārstāv pašreizējo tehnikas līmeni atvērtā koda modeļiem.

Vadošais Qwen3-VL-235B modelis konkurē ar vadošajām patentētajām sistēmām multimodālos etalonos, kas aptver vispārīgus jautājumus un atbildes, 3D pamatošanu, video izpratni, OCR un dokumentu izpratni.

Tas, kas padara Qwen 3-VL īpaši interesantu, ir tā "aģentiskās" spējas. Modelis var darbināt grafiskās saskarnes, atpazīt UI elementus, saprast to funkcijas un veikt reālās pasaules uzdevumus, izsaucot rīkus.

Šis ir tilts starp izpratni un darbību, kas pasaules modeļiem ir nepieciešams.

Kāpēc tas ir svarīgi radītājiem

Ja esat video radītājs, filmētājs vai animators, pasaules modeļi var šķist tālu no jūsu ikdienas darba. Bet sekas ir tuvāk, nekā jūs domājat.

Pašreizējiem AI video rīkiem ir problēmas ar fizisko konsekvenci. Objekti iziet cauri viens otram. Gravitācija uzvedas nekonsekventi. Cēlonis un sekas tiek sajauktas. Šie visi ir simptomi modeļiem, kas var ģenerēt reālistiskus pikseļus, bet patiesībā nesaprot fiziskos noteikumus, kas ir pamatā tam, ko tie attēlo.

Pasaules modeļi, kas trenēti uz masīvām video datu kopām, galu galā varētu atgriezties video ģenerēšanā, radot AI rīkus, kas pēc būtības respektē fizikas likumus. Iedomājieties video ģeneratoru, kur jums nav jāpieprasa "reālistiska fizika," jo modelis jau zina, kā realitāte darbojas.

💡

Saistītā lasāmviela: Lai uzzinātu vairāk par video ģenerēšanas attīstību, skatiet mūsu padziļināto analīzi par difūzijas transformeriem un pasaules modeļiem video ģenerēšanā.

Ceļš uz priekšu

Pasaules modeļi pārstāv, iespējams, visambiciozāko mērķi AI: iemācīt mašīnām saprast fizisko realitāti tā, kā to dara cilvēki. Nevis caur skaidru programmēšanu, bet caur novērošanu, secinājumiem un iztēli.

Mēs joprojām esam sākumā. Pašreizējās sistēmas ir iespaidīgas demonstrācijas, nevis produkcijas gatavi risinājumi. Bet trajektorija ir skaidra.

Kas mums ir tagad:

Ierobežota secību saskaņotība
Domēnam specifiski modeļi
Augsti skaitļošanas izmaksas
Izvietojumi pētniecības stadijā

Kas nāk:

Paplašināta laika izpratne
Vispārējas nozīmes pasaules modeļi
Izvietošana perifērijas ierīcēs
Integrācija ar komerciālo robotiku

Uzņēmumi, kas masveidā investē šajā jomā, NVIDIA, Google DeepMind, OpenAI un daudzi jaunuzņēmumi, liek likmes, ka fiziskā inteliģence ir nākamā robeža pēc digitālās inteliģences.

Ņemot vērā, cik transformējoši LLM ir bijuši tekstā balstītam darbam, iedomājieties ietekmi, kad AI varēs saprast fizisko pasauli un mijiedarboties ar to tikpat brīvi.

Tas ir video valodas modeļu solījums. Tāpēc šī robeža ir svarīga.

💡

Turpmākā lasāmviela: Izpētiet, kā AI video jau pārveido radošās darba plūsmas mūsu apskatā par vietējo audio ģenerēšanu un uzņēmumu pieņemšanu.