PixVerse R1: A valós idejű interaktív AI-videó hajnala

Mi lenne, ha egy videó reagálna rád, miközben még mindig készül? A PixVerse éppen azzal válaszolt erre a kérdésre, hogy elavulttá tette.

január 13-án az Alibaba által támogatott PixVerse startup valami olyasmit dobott piacra, amely kevésbé termékfrissítésnek, mint inkább paradigmaváltásnak tűnik. Az R1 az első valós idejű világmodell, amely képes 1080p-s videót készíteni, amely azonnal reagál a felhasználó bemenetre. Nem kötegekben. Nem egy folyamatjelzőt követően. Most, rögtön, miközben nézed.

💡

A valós idejű AI-videógenerálás azt jelenti, hogy a karakterek azonnal parancsra sírhatnak, táncozhatnak, megállapodhatnak vagy pózt vehetnek fel, és ezek a változások a videó folytatódása közben történnek.

A kötegfeldolgozástól a végtelen adatfolyamokig

A hagyományos videógenerálás így működik: írasz egy promptot, néhány másodperctől néhány percig vársz, majd kapsz egy rögzített hosszúságú klipet. Ez egy kérés-válasz minta, amely a korai szöveg-kép generálás időkből származik. A PixVerse R1 teljesen megbontja ezt a mintát.

A rendszer a videógenerálást az úgynevezett "végtelen, folyamatos és interaktív vizuális adatfolyamra" alakítja. Nincs várakozás. Nincs előre meghatározott végpont. Te irányítod a jeleneteket, miközben azok kibontakoznak.

1-4

Diffúziós lépések (sok helyett)

1080p

Valós idejű felbontás

100M

Regisztrált felhasználók (2025. augusztus)

A valós idejű generálás mögött álló technikai architektúra

Hogyan lehet a diffúziós modelleket elég gyorssá tenni a valós idejű használathoz? A PixVerse ezt az úgynevezett "temporal trajectory folding" segítségével oldotta meg.

A standard diffúziós mintavételezéshez több tucatnyi iteratív lépés szükséges, mindegyik a kimenetből zajból a koherens videó felé finomítódik. Az R1 ezt a folyamatot csupán egy-négy lépésre csökkenti a közvetlen predikción keresztül. Rugalmasságot cserélez a valós idejű interakcióhoz szükséges sebességért.

✓Sebesség előnye

A valós idejű válasz új, a kötegelt generálással lehetetlen alkalmazásokat tesz lehetővé, mint az interaktív narratívák és az AI-natív játékok.

✗Rugalmassági kompromisszum

A közvetlen predikció kevesebb vezérlést nyújt a finomgörgetésű generáláshoz képest a teljes diffúziós mintavételezéshez képest.

Az alapul szolgáló modell az, amit a PixVerse "Omni Native Multimodal Foundation Model"-nek ír le. Ahelyett, hogy a szöveget, képeket, audiót és videót külön feldolgozási szakaszokon keresztül irányítaná, az R1 az összes bemenetet egységes tokenfolyamként kezeli. Ez az építészeti döntés kiküszöböli azt a kézzel-lábbal latenciát, amely a hagyományos többmodális rendszereket megtámadja.

Mit jelent ez az alkotók számára?

A következmények túlmutatnak a gyorsabb renderelésén. A valós idejű generálás teljesen új kreatív munkafolyamatokat tesz lehetővé.

🎮

AI-natív játékok

Képzelj el olyan játékokat, ahol a környezetek és a narratívák a játékos cselekvésétől függően dinamikusan fejlődnek, nincsenek előre megtervezett történetvezetések, nincsenek tartalmi határok.

🎬

Interaktív mozi

Mikró-drámák, ahol a nézők befolyásolják a történet végkimenetelét. Nem a választ-a-saját-kalandjá játékok, amely ágak közül választhat, hanem folyamatos narravítva, amely saját magán alakul meg.

🎭

Élő rendezés

A rendezők valós időben módosíthatják a jeleneteket, különböző érzelmi ütéseket, megvilágítási változásokat vagy karaktercselekvéseket tesztelhetek az ismételt renderelésre való várakozás nélkül.

A versenykörnyezet: Kína AI-videó dominanciája

A PixVerse R1 egy olyan mintát erősít meg, amely az egész 2025-ben felépült: a kínai csapatok vezetnek az AI-videógenerálásban. Az AI-referenciahálózat cég, az Artificial Analysis szerint a nyolc legjobb videógenerálási modell közül hét kínai vállalatokból származik. Csak az izraeli Lightricks startup töri meg a sorozatot.

💡

A Kína növekvő befolyásáról az AI-videó területén további elemzésért lásd: hogyan alakítják át a kínai vállalatok a versenykörnyezetet.

"A Sora továbbra is meghatározza a videógenerálás minőségi tetejét, de korlátozottvolta a generálás ideje és az API költsége miatt" - jegyzi meg Wei Sun, a Counterpoint főbb elemzője. A PixVerse R1 pontosan ezeket a korlátokat támadja, eltérő érték javaslatot nyújtva: nem a maximális minőség, hanem a maximális reagálékonyság.

Metrika	PixVerse R1	Hagyományos modellek
Válaszidő	Valós idő	Másodperctől percig
Videó hossza	Végtelen adatfolyam	Rögzített klipek (5-30 s)
Felhasználói interakció	Folyamatos	Prompt, majd várakozás
Felbontás	1080p	4K-ig (kötegelt)

A valós idejű videó biznisz

A PixVerse nem csupán technológiát építet, hanem bizniszt épít. A vállalat 2025 októberében 40 millió dolláros éves ismétlődő bevételt jelentett, és elérte a 100 millió regisztrált felhasználót. Az alapító, Jaden Xie célja, hogy a felhasználó bázisát 2026 közepére megduplázza 200 millióra.

A startup tavaly őszén több mint 60 millió dollárt gyűjtött össze egy Alibaba vezetésével zajló finanszírozási körben, az Antler közreműködésével. Ez a tőke agresszíven kerül bevetésre: az év végéig a foglalkoztatottak száma csaknem megduplázódhat 200 alkalmazottra.

2023

PixVerse alapítása

A cég az AI-videógenerálásra összpontosított alapítása.

2025. augusztus

100 millió felhasználó

A platform eléri a 100 millió regisztrált felhasználót.

2025 ősz

60 millió dollárnál nagyobb finanszírozás

Az Alibaba vezette finanszírozási kör 40 millió ARR mellett.

2026. január

R1 indítása

Az első valós idejű világmodell kerül piacra.

Próbáld ki te is

Az R1 már elérhető a realtime.pixverse.ai címen, bár a hozzáférés jelenleg csak meghívottakra korlátozódik, miközben a csapat az infrastruktúrát méretezi. Ha követted a világmodellek fejlődését vagy kísérleteztel a TurboDiffusionnal, az R1 a logikus következő lépést jelenti: nem csak gyorsabb generálás, hanem egy alapvetően eltérő interakciós paradigma.

A kérdés már nem az, hogy "milyen gyorsan tud AI-videót generálni?" A kérdés: "mi válik lehetővé, amikor a videógenerálásnak nulla észrevehető késleltetése van?" A PixVerse éppen ezt a kérdésre kezdett válaszolni. A többiek követnek.

Mi következik?

A valós idejű generálás 1080p-n lenyűgöző, de a trajektória világos: magasabb felbontások, hosszabb kontextusablakok és mélyebb többmodális integráció. Az infrastruktúra és az olyan technikák, mint a temporal trajectory folding, a valós idejű 4K-generálás rutin lehet.

Egyelőre az R1 egy koncepciógalléria, amely egyidejűleg egy gyártási rendszer is. Azt mutatja, hogy a "videó generálása" és a "videó rendezése" közötti vonal elmosódhat, amíg el nem tűnik. Ez nem csupán technikai megvalósítás. Ez egy kreatív.

💡

Kapcsolódó olvasmány: Ismerkedj meg azzal, hogyan működnek a diffúziós transzformátorok a modern videógenerálásban, vagy fedezd fel a Runway megközelítését a világmodellekhez az interaktív videó másik megközelítéséhez.

PixVerse R1: A valós idejű interaktív AI-videó hajnala

A kötegfeldolgozástól a végtelen adatfolyamokig

A valós idejű generálás mögött álló technikai architektúra

Mit jelent ez az alkotók számára?

AI-natív játékok

Interaktív mozi

Élő rendezés

A versenykörnyezet: Kína AI-videó dominanciája

A valós idejű videó biznisz

PixVerse alapítása

100 millió felhasználó

60 millió dollárnál nagyobb finanszírozás

R1 indítása

Próbáld ki te is

Mi következik?

Henry

Like what you read?

Kapcsolódó cikkek

Runway GWM-1: Az általános világmodell, amely valós időben szimulálja a valóságot

Yann LeCun otthagyja a Metát, és 3,5 milliárd dollárt tesz fel a világmodellekre

Fizikai szimuláció az AI videókban: Hogyan tanulták meg végre a modellek tisztelni a valóságot

Tetszett a cikk?