PixVerse R1: L'albada del vídeo AI interactiu en temps real
PixVerse, respaldat per Alibaba, revela R1, el primer model mundial capaç de generar vídeo 1080p que respon instantàniament a l'entrada de l'usuari, obrint portes a jocs infinits i cinema interactiu.

I si un vídeo pogués respondre's a tu mentre es segueix generant? PixVerse acaba de fer aquesta pregunta obsoleta respondent-hi.
El 13 de gener de 2026, l'empresa emergent PixVerse, respaldat per Alibaba, va llançar quelcom que sembla menys com una actualització de producte i més com un canvi de paradigma. R1 és el primer model mundial en temps real capaç de generar vídeo 1080p que respon instantàniament a l'entrada de l'usuari. No en lots. No després d'una barra de progres. Ara, mentre mires.
La generació de vídeo AI en temps real significa que els personatges poden plorar, ballar, congelar-se o adoptar una postura sota demanda, amb canvis que succeeixen instantàniament mentre el vídeo segueix avançant.
Del processament per lots a fluxos infinits
La generació de vídeo tradicional funciona així: escrius una indicació, esperes des de segons fins a minuts, i reps un videoclip fixe. Es tracta d'un patró sol·licitud-resposta pres manllevat dels primers dies del text a imatge. PixVerse R1 trenca completament aquest patró.
El sistema transforma la generació de vídeo en allò que l'empresa anomena "un flux visual infinit, continu i interactiu". No hi ha espera. No hi ha punt final predeterminat. Dirigeixes l'escena mentre es desplegà.
L'arquitectura tècnica darrere la generació en temps real
Com fas que els models de difusió siguin prou ràpids per a ús en temps real? PixVerse ho va solucionar mitjançant allò que anomenen "plegament de trajectòria temporal".
L'estrall de difusió estàndard requereix dotzenes de passos iteratius, cadascun refinant la sortida del soroll al vídeo coherent. R1 col·lapsa aquest procés fins a només un a quatre passos mitjançant predicció directa. Tu canvies certa flexibilitat de generació de vídeo per la velocitat necessària per a l'ús interactiu.
La resposta en temps real possibilita aplicacions noves impossibles amb generació per lots, com narratives interactives i jocs nadius per a IA.
La predicció directa ofereix menys control sobre la generació més fina en comparació amb la difusió completa.
El model subjacent és allò que PixVerse descriu com a "Model Multimodal de Fundació Omnidireccional". En lloc de dirigir text, imatges, àudio i vídeo a través de fases de processament separades, R1 tracta totes les entrades com un flux de simbòlic unificat. Aquesta opció d'arquitectura elimina la latència de traspàs que plaga els sistemes multimodals convencionals.
Què significa això per als creadors?
Les implicacions van més allà de la renderització més ràpida. La generació en temps real possibilita fluxos de treball creatius completament nous.
Jocs nadius per a IA
Imagina't jocs on els entorns i les narratives evolucionen dinàmicament en resposta a les accions del jugador, sense trames predesenyades, sense límits de contingut.
Cinema interactiu
Microdrama on els espectadors influeixen en com es desplegà la història. No escollixi la teua pròpia aventura amb camins ramificats, sinó narrativa contínua que es reformula.
Direcció en directe
Els directors poden ajustar les escenes en temps real, provant diversos ritmes emocionals, canvis d'il·luminació, o accions de personatges sense esperar representacions noves.
El panorama competitiu, dominació de vídeo AI de Xina
PixVerse R1 reforça un patró que s'ha estat construint al llarg de 2025: els equips xinesos lideren la generació de vídeo AI. Segons la firma de referència de IA Artificial Analysis, set dels vuit models de generació de vídeo més comuns provenen de empreses xineses. Només l'empresa emergent israeliana Lightricks trenqua la ratlla.
Per a una mirada més profunda a la creixent influència de Xina en vídeo AI, consulteu la nostra anàlisi de com les empreses xineses estan reformulant el panorama competitiu.
"Sora segueix definint el sostre de qualitat en la generació de vídeo, però es veu limitada per temps de generació i cost d'API," assenyala Wei Sun, analista principal de Counterpoint. PixVerse R1 ataca exactament aquelles limitacions, oferint una proposta de valor diferent: no qualitat màxima, sinó receptivitat màxima.
| Mètrica | PixVerse R1 | Models tradicionals |
|---|---|---|
| Temps de resposta | Temps real | Segons a minuts |
| Durada del vídeo | Flux infinit | Clips fixes (5-30s) |
| Interacció de l'usuari | Continu | Indicació-llavors-espera |
| Resolució | 1080p | Fins a 4K (lot) |
El negoci del vídeo en temps real
PixVerse no només construeix tecnologia, està construint un negoci. L'empresa va informar de 40 milions de dòlars d'ingressos anuals recurrents en octubre de 2025 i ha crescut fins a 100 milions d'usuaris registrats. El cofundador Jaden Xie pretén duplicar aquesta base d'usuaris fins a 200 milions a mitjans de 2026.
La startup va reunir més de 60 milions de dòlars en una ronda encapçalada per Alibaba, amb Antler participant. Aquest capital s'està desplegant agressivament, la plantilla podria quasi duplicar-se fins a 200 empleats a finals d'any.
PixVerse fundat
L'empresa es llança amb focus en la generació de vídeo AI.
100M usuaris
La plataforma arriba a 100 milions d'usuaris registrats.
$60M+ recaptat
Ronda de finançament encapçalada per Alibaba amb 40 milions de dòlars ARR.
Llançament de R1
El primer model mundial en temps real es posa en marxa.
Prova'l tu mateix
R1 està disponible ara a realtime.pixverse.ai, encara que l'accés és actualment només per invitació mentre l'equip escala la infraestructura. Si has estat seguint l'evolució dels models mundials o experimentant amb TurboDiffusion, R1 representa el següent pas lògic: no només generació més ràpida, sinó un paradigma d'interacció completament diferent.
La pregunta ja no és "quin és el vídeo tan ràpid pot generar AI?" La pregunta és "què es fa possible quan la generació de vídeo no té latència perceptible?" PixVerse acaba de començar a respondre aquesta pregunta. La resta de nosaltres ens posem al dia.
Què ve a continuació?
La generació en temps real a 1080p és impressionant, però la trajectòria és clara: resolucions més altes, finestres de context més llargues, i integració multimodal més profunda. A mesura que la infraestructura s'escala i tècniques com el plegament de trajectòria temporal es maduren, podríem veure la generació 4K en temps real convertir-se en rutina.
Per ara, R1 és una prova de concepte que es duplica com a sistema de producció. Mostra que la línia entre "generar vídeo" i "dirigir vídeo" pot offuscar fins que desapareix completament. No es tracta només d'un assoliment tècnic. Es tracta d'un creador.
Lectura relacionada: Descobreix com els transformadors de difusió potencien la generació de vídeo moderna, o explora l'enfocament de Runway als models mundials per a una altra perspectiva sobre vídeo interactiu.
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real
El GWM-1 de Runway marca un canvi de paradigma des de generar vídeos fins a simular mons. Descobreix com aquest model autoregressiu crea entorns explorables, avatars fotorealistes i simulacions d'entrenament de robots.

Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI
De DeepMind Genie a AMI Labs, els models del món es converteixen silenciosament en la fonamentació per a una IA que entén veritablement la física. El mercat de jocs de 500 mil milions de dòlars pot ser on primer es demostren.

Yann LeCun Deixa Meta per Apostar 3.500 Milions de Dòlars en els World Models
El guanyador del Premi Turing llança AMI Labs, una nova startup centrada en els world models en lloc dels LLMs, amb objectius en robòtica, sanitat i comprensió de vídeo.