PixVerse R1: A valós idejű interaktív AI-videó hajnala
Az Alibaba által támogatott PixVerse bemutatta az R1-et, az első világmodellt, amely képes 1080p-s videót készíteni, amely azonnal reagál a felhasználó bemenetre, megnyitva az utat a végtelen játékokhoz és interaktív moziba.

Mi lenne, ha egy videó reagálna rád, miközben még mindig készül? A PixVerse éppen azzal válaszolt erre a kérdésre, hogy elavulttá tette.
- január 13-án az Alibaba által támogatott PixVerse startup valami olyasmit dobott piacra, amely kevésbé termékfrissítésnek, mint inkább paradigmaváltásnak tűnik. Az R1 az első valós idejű világmodell, amely képes 1080p-s videót készíteni, amely azonnal reagál a felhasználó bemenetre. Nem kötegekben. Nem egy folyamatjelzőt követően. Most, rögtön, miközben nézed.
A valós idejű AI-videógenerálás azt jelenti, hogy a karakterek azonnal parancsra sírhatnak, táncozhatnak, megállapodhatnak vagy pózt vehetnek fel, és ezek a változások a videó folytatódása közben történnek.
A kötegfeldolgozástól a végtelen adatfolyamokig
A hagyományos videógenerálás így működik: írasz egy promptot, néhány másodperctől néhány percig vársz, majd kapsz egy rögzített hosszúságú klipet. Ez egy kérés-válasz minta, amely a korai szöveg-kép generálás időkből származik. A PixVerse R1 teljesen megbontja ezt a mintát.
A rendszer a videógenerálást az úgynevezett "végtelen, folyamatos és interaktív vizuális adatfolyamra" alakítja. Nincs várakozás. Nincs előre meghatározott végpont. Te irányítod a jeleneteket, miközben azok kibontakoznak.
A valós idejű generálás mögött álló technikai architektúra
Hogyan lehet a diffúziós modelleket elég gyorssá tenni a valós idejű használathoz? A PixVerse ezt az úgynevezett "temporal trajectory folding" segítségével oldotta meg.
A standard diffúziós mintavételezéshez több tucatnyi iteratív lépés szükséges, mindegyik a kimenetből zajból a koherens videó felé finomítódik. Az R1 ezt a folyamatot csupán egy-négy lépésre csökkenti a közvetlen predikción keresztül. Rugalmasságot cserélez a valós idejű interakcióhoz szükséges sebességért.
A valós idejű válasz új, a kötegelt generálással lehetetlen alkalmazásokat tesz lehetővé, mint az interaktív narratívák és az AI-natív játékok.
A közvetlen predikció kevesebb vezérlést nyújt a finomgörgetésű generáláshoz képest a teljes diffúziós mintavételezéshez képest.
Az alapul szolgáló modell az, amit a PixVerse "Omni Native Multimodal Foundation Model"-nek ír le. Ahelyett, hogy a szöveget, képeket, audiót és videót külön feldolgozási szakaszokon keresztül irányítaná, az R1 az összes bemenetet egységes tokenfolyamként kezeli. Ez az építészeti döntés kiküszöböli azt a kézzel-lábbal latenciát, amely a hagyományos többmodális rendszereket megtámadja.
Mit jelent ez az alkotók számára?
A következmények túlmutatnak a gyorsabb renderelésén. A valós idejű generálás teljesen új kreatív munkafolyamatokat tesz lehetővé.
AI-natív játékok
Képzelj el olyan játékokat, ahol a környezetek és a narratívák a játékos cselekvésétől függően dinamikusan fejlődnek, nincsenek előre megtervezett történetvezetések, nincsenek tartalmi határok.
Interaktív mozi
Mikró-drámák, ahol a nézők befolyásolják a történet végkimenetelét. Nem a választ-a-saját-kalandjá játékok, amely ágak közül választhat, hanem folyamatos narravítva, amely saját magán alakul meg.
Élő rendezés
A rendezők valós időben módosíthatják a jeleneteket, különböző érzelmi ütéseket, megvilágítási változásokat vagy karaktercselekvéseket tesztelhetek az ismételt renderelésre való várakozás nélkül.
A versenykörnyezet: Kína AI-videó dominanciája
A PixVerse R1 egy olyan mintát erősít meg, amely az egész 2025-ben felépült: a kínai csapatok vezetnek az AI-videógenerálásban. Az AI-referenciahálózat cég, az Artificial Analysis szerint a nyolc legjobb videógenerálási modell közül hét kínai vállalatokból származik. Csak az izraeli Lightricks startup töri meg a sorozatot.
A Kína növekvő befolyásáról az AI-videó területén további elemzésért lásd: hogyan alakítják át a kínai vállalatok a versenykörnyezetet.
"A Sora továbbra is meghatározza a videógenerálás minőségi tetejét, de korlátozottvolta a generálás ideje és az API költsége miatt" - jegyzi meg Wei Sun, a Counterpoint főbb elemzője. A PixVerse R1 pontosan ezeket a korlátokat támadja, eltérő érték javaslatot nyújtva: nem a maximális minőség, hanem a maximális reagálékonyság.
| Metrika | PixVerse R1 | Hagyományos modellek |
|---|---|---|
| Válaszidő | Valós idő | Másodperctől percig |
| Videó hossza | Végtelen adatfolyam | Rögzített klipek (5-30 s) |
| Felhasználói interakció | Folyamatos | Prompt, majd várakozás |
| Felbontás | 1080p | 4K-ig (kötegelt) |
A valós idejű videó biznisz
A PixVerse nem csupán technológiát építet, hanem bizniszt épít. A vállalat 2025 októberében 40 millió dolláros éves ismétlődő bevételt jelentett, és elérte a 100 millió regisztrált felhasználót. Az alapító, Jaden Xie célja, hogy a felhasználó bázisát 2026 közepére megduplázza 200 millióra.
A startup tavaly őszén több mint 60 millió dollárt gyűjtött össze egy Alibaba vezetésével zajló finanszírozási körben, az Antler közreműködésével. Ez a tőke agresszíven kerül bevetésre: az év végéig a foglalkoztatottak száma csaknem megduplázódhat 200 alkalmazottra.
PixVerse alapítása
A cég az AI-videógenerálásra összpontosított alapítása.
100 millió felhasználó
A platform eléri a 100 millió regisztrált felhasználót.
60 millió dollárnál nagyobb finanszírozás
Az Alibaba vezette finanszírozási kör 40 millió ARR mellett.
R1 indítása
Az első valós idejű világmodell kerül piacra.
Próbáld ki te is
Az R1 már elérhető a realtime.pixverse.ai címen, bár a hozzáférés jelenleg csak meghívottakra korlátozódik, miközben a csapat az infrastruktúrát méretezi. Ha követted a világmodellek fejlődését vagy kísérleteztel a TurboDiffusionnal, az R1 a logikus következő lépést jelenti: nem csak gyorsabb generálás, hanem egy alapvetően eltérő interakciós paradigma.
A kérdés már nem az, hogy "milyen gyorsan tud AI-videót generálni?" A kérdés: "mi válik lehetővé, amikor a videógenerálásnak nulla észrevehető késleltetése van?" A PixVerse éppen ezt a kérdésre kezdett válaszolni. A többiek követnek.
Mi következik?
A valós idejű generálás 1080p-n lenyűgöző, de a trajektória világos: magasabb felbontások, hosszabb kontextusablakok és mélyebb többmodális integráció. Az infrastruktúra és az olyan technikák, mint a temporal trajectory folding, a valós idejű 4K-generálás rutin lehet.
Egyelőre az R1 egy koncepciógalléria, amely egyidejűleg egy gyártási rendszer is. Azt mutatja, hogy a "videó generálása" és a "videó rendezése" közötti vonal elmosódhat, amíg el nem tűnik. Ez nem csupán technikai megvalósítás. Ez egy kreatív.
Kapcsolódó olvasmány: Ismerkedj meg azzal, hogyan működnek a diffúziós transzformátorok a modern videógenerálásban, vagy fedezd fel a Runway megközelítését a világmodellekhez az interaktív videó másik megközelítéséhez.
Hasznos volt ez a cikk?

Henry
Kreatív TechnológusKreatív technológus Lausanne-ból, aki azt kutatja, hol találkozik az AI a művészettel. Generatív modellekkel kísérletezik elektronikus zenei szesszióik között.
Kapcsolódó cikkek
Fedezd fel ezeket a kapcsolódó bejegyzéseket

Runway GWM-1: Az általános világmodell, amely valós időben szimulálja a valóságot
A Runway GWM-1 paradigmaváltást jelent a videók generálásától a világok szimulációjáig. Fedezze fel, hogy ez az autoregresszív modell hogyan hoz létre felfedezhető környezeteket, fotorealisztikus avatárokat és robot-edzési szimulációkat.

Yann LeCun otthagyja a Metát, és 3,5 milliárd dollárt tesz fel a világmodellekre
A Turing-díjas kutató elindítja az AMI Labs-t, egy új startupot, amely a világmodellekre összpontosít az LLM-ek helyett, célkeresztjében a robotikával, az egészségüggyel és a videóértéssel.

Fizikai szimuláció az AI videókban: Hogyan tanulták meg végre a modellek tisztelni a valóságot
A teleportáló kosárlabdáktól a realisztikus pattanásokig, az AI videó modellek most már értik a gravitációt, a lendületet és az anyagok dinamikáját. Feltárjuk a technikai áttöréseket, amelyek ezt lehetővé teszik.