PixVerse R1: L'albada del vídeo AI interactiu en temps real

I si un vídeo pogués respondre's a tu mentre es segueix generant? PixVerse acaba de fer aquesta pregunta obsoleta respondent-hi.

El 13 de gener de 2026, l'empresa emergent PixVerse, respaldat per Alibaba, va llançar quelcom que sembla menys com una actualització de producte i més com un canvi de paradigma. R1 és el primer model mundial en temps real capaç de generar vídeo 1080p que respon instantàniament a l'entrada de l'usuari. No en lots. No després d'una barra de progres. Ara, mentre mires.

💡

La generació de vídeo AI en temps real significa que els personatges poden plorar, ballar, congelar-se o adoptar una postura sota demanda, amb canvis que succeeixen instantàniament mentre el vídeo segueix avançant.

Del processament per lots a fluxos infinits

La generació de vídeo tradicional funciona així: escrius una indicació, esperes des de segons fins a minuts, i reps un videoclip fixe. Es tracta d'un patró sol·licitud-resposta pres manllevat dels primers dies del text a imatge. PixVerse R1 trenca completament aquest patró.

El sistema transforma la generació de vídeo en allò que l'empresa anomena "un flux visual infinit, continu i interactiu". No hi ha espera. No hi ha punt final predeterminat. Dirigeixes l'escena mentre es desplegà.

1-4

Passos de difusió (baixen de dotzenes)

1080p

Resolució en temps real

100M

Usuaris registrats (agost de 2025)

L'arquitectura tècnica darrere la generació en temps real

Com fas que els models de difusió siguin prou ràpids per a ús en temps real? PixVerse ho va solucionar mitjançant allò que anomenen "plegament de trajectòria temporal".

L'estrall de difusió estàndard requereix dotzenes de passos iteratius, cadascun refinant la sortida del soroll al vídeo coherent. R1 col·lapsa aquest procés fins a només un a quatre passos mitjançant predicció directa. Tu canvies certa flexibilitat de generació de vídeo per la velocitat necessària per a l'ús interactiu.

✓Avantatge de velocitat

La resposta en temps real possibilita aplicacions noves impossibles amb generació per lots, com narratives interactives i jocs nadius per a IA.

✗Compromís de flexibilitat

La predicció directa ofereix menys control sobre la generació més fina en comparació amb la difusió completa.

El model subjacent és allò que PixVerse descriu com a "Model Multimodal de Fundació Omnidireccional". En lloc de dirigir text, imatges, àudio i vídeo a través de fases de processament separades, R1 tracta totes les entrades com un flux de simbòlic unificat. Aquesta opció d'arquitectura elimina la latència de traspàs que plaga els sistemes multimodals convencionals.

Què significa això per als creadors?

Les implicacions van més allà de la renderització més ràpida. La generació en temps real possibilita fluxos de treball creatius completament nous.

🎮

Jocs nadius per a IA

Imagina't jocs on els entorns i les narratives evolucionen dinàmicament en resposta a les accions del jugador, sense trames predesenyades, sense límits de contingut.

🎬

Cinema interactiu

Microdrama on els espectadors influeixen en com es desplegà la història. No escollixi la teua pròpia aventura amb camins ramificats, sinó narrativa contínua que es reformula.

🎭

Direcció en directe

Els directors poden ajustar les escenes en temps real, provant diversos ritmes emocionals, canvis d'il·luminació, o accions de personatges sense esperar representacions noves.

El panorama competitiu, dominació de vídeo AI de Xina

PixVerse R1 reforça un patró que s'ha estat construint al llarg de 2025: els equips xinesos lideren la generació de vídeo AI. Segons la firma de referència de IA Artificial Analysis, set dels vuit models de generació de vídeo més comuns provenen de empreses xineses. Només l'empresa emergent israeliana Lightricks trenqua la ratlla.

💡

Per a una mirada més profunda a la creixent influència de Xina en vídeo AI, consulteu la nostra anàlisi de com les empreses xineses estan reformulant el panorama competitiu.

"Sora segueix definint el sostre de qualitat en la generació de vídeo, però es veu limitada per temps de generació i cost d'API," assenyala Wei Sun, analista principal de Counterpoint. PixVerse R1 ataca exactament aquelles limitacions, oferint una proposta de valor diferent: no qualitat màxima, sinó receptivitat màxima.

Mètrica	PixVerse R1	Models tradicionals
Temps de resposta	Temps real	Segons a minuts
Durada del vídeo	Flux infinit	Clips fixes (5-30s)
Interacció de l'usuari	Continu	Indicació-llavors-espera
Resolució	1080p	Fins a 4K (lot)

El negoci del vídeo en temps real

PixVerse no només construeix tecnologia, està construint un negoci. L'empresa va informar de 40 milions de dòlars d'ingressos anuals recurrents en octubre de 2025 i ha crescut fins a 100 milions d'usuaris registrats. El cofundador Jaden Xie pretén duplicar aquesta base d'usuaris fins a 200 milions a mitjans de 2026.

La startup va reunir més de 60 milions de dòlars en una ronda encapçalada per Alibaba, amb Antler participant. Aquest capital s'està desplegant agressivament, la plantilla podria quasi duplicar-se fins a 200 empleats a finals d'any.

2023

PixVerse fundat

L'empresa es llança amb focus en la generació de vídeo AI.

agost de 2025

100M usuaris

La plataforma arriba a 100 milions d'usuaris registrats.

tardor de 2025

$60M+ recaptat

Ronda de finançament encapçalada per Alibaba amb 40 milions de dòlars ARR.

gener de 2026

Llançament de R1

El primer model mundial en temps real es posa en marxa.

Prova'l tu mateix

R1 està disponible ara a realtime.pixverse.ai, encara que l'accés és actualment només per invitació mentre l'equip escala la infraestructura. Si has estat seguint l'evolució dels models mundials o experimentant amb TurboDiffusion, R1 representa el següent pas lògic: no només generació més ràpida, sinó un paradigma d'interacció completament diferent.

La pregunta ja no és "quin és el vídeo tan ràpid pot generar AI?" La pregunta és "què es fa possible quan la generació de vídeo no té latència perceptible?" PixVerse acaba de començar a respondre aquesta pregunta. La resta de nosaltres ens posem al dia.

Què ve a continuació?

La generació en temps real a 1080p és impressionant, però la trajectòria és clara: resolucions més altes, finestres de context més llargues, i integració multimodal més profunda. A mesura que la infraestructura s'escala i tècniques com el plegament de trajectòria temporal es maduren, podríem veure la generació 4K en temps real convertir-se en rutina.

Per ara, R1 és una prova de concepte que es duplica com a sistema de producció. Mostra que la línia entre "generar vídeo" i "dirigir vídeo" pot offuscar fins que desapareix completament. No es tracta només d'un assoliment tècnic. Es tracta d'un creador.

💡

Lectura relacionada: Descobreix com els transformadors de difusió potencien la generació de vídeo moderna, o explora l'enfocament de Runway als models mundials per a una altra perspectiva sobre vídeo interactiu.

PixVerse R1: L'albada del vídeo AI interactiu en temps real

Del processament per lots a fluxos infinits

L'arquitectura tècnica darrere la generació en temps real

Què significa això per als creadors?

Jocs nadius per a IA

Cinema interactiu

Direcció en directe

El panorama competitiu, dominació de vídeo AI de Xina

El negoci del vídeo en temps real

PixVerse fundat

100M usuaris

$60M+ recaptat

Llançament de R1

Prova'l tu mateix

Què ve a continuació?

Henry

Like what you read?

Articles relacionats

Runway GWM-1: El Model de Món General que Simula la Realitat en Temps Real

Models del Món Més Enllà de Vídeo: Per Què els Jocs i la Robòtica Són els Veritables Terrenys de Prova per a l'AGI

Yann LeCun Deixa Meta per Apostar 3.500 Milions de Dòlars en els World Models

T'ha agradat aquest article?