Kling O1: Kuaishou s'uneix a la cursa de vídeo multimodal unificat
Kuaishou acaba de llançar Kling O1, una IA multimodal unificada que pensa en vídeo, àudio i text simultàniament. La cursa per la intel·ligència audiovisual s'està escalfant.

Mentre tothom estava pendent de Runway celebrant la seva victòria al Video Arena, Kuaishou va presentar discretament alguna cosa significativa. Kling O1 no és només un altre model de vídeo. Representa una nova onada d'arquitectures multimodals unificades que processen vídeo, àudio i text com un únic sistema cognitiu.
Per què això és diferent
Fa anys que segueixo l'IA de vídeo. Hem vist models que generen vídeo a partir de text. Models que afegeixen àudio després. Models que sincronitzen àudio amb vídeo existent. Però Kling O1 fa alguna cosa fonamentalment nova: pensa en totes les modalitats alhora.
Multimodal unificat significa que el model no té mòduls separats de "comprensió de vídeo" i "generació d'àudio" units. Té una única arquitectura que processa la realitat audiovisual com ho fan els humans: com un tot integrat.
La diferència és subtil però enorme. Els models anteriors funcionaven com un equip de cinema: director per als visuals, dissenyador de so per a l'àudio, editor per a la sincronització. Kling O1 funciona com un únic cervell que experimenta el món.
El salt tècnic
Aquí teniu el que fa diferent Kling O1 a nivell d'arquitectura:
Enfocament anterior (Multi-Model)
- El codificador de text processa el prompt
- El model de vídeo genera fotogrames
- El model d'àudio genera so
- El model de sincronització alinea les sortides
- Els resultats sovint semblen desconnectats
Kling O1 (Unificat)
- Codificador únic per a totes les modalitats
- Espai latent conjunt per a àudio-vídeo
- Generació simultània
- Sincronització inherent
- Els resultats semblen naturalment coherents
El resultat pràctic? Quan Kling O1 genera un vídeo de pluja a una finestra, no genera visuals de pluja i després esbrinar com sona la pluja. Genera l'experiència de pluja a una finestra, so i visió emergint junts.
Kling Video 2.6: la versió de consum
Juntament amb O1, Kuaishou va llançar Kling Video 2.6 amb generació audiovisual simultània. Aquesta és la versió accessible de l'enfocament unificat:
Generació en un sol pas
El vídeo i l'àudio es generen en un sol procés. Sense post-sincronització, sense alineació manual. El que demanes és el que obtens, complet.
Espectre d'àudio complet
Diàleg, veus en off, efectes de so, atmosfera ambient. Tot generat de forma nativa, tot sincronitzat amb el contingut visual.
Revolució en el flux de treball
El pipeline tradicional de vídeo-i-després-àudio desapareix. Genera contingut audiovisual complet des d'un sol prompt.
Control professional
Malgrat la generació unificada, encara tens control sobre els elements. Ajusta l'estat d'ànim, el ritme i l'estil mitjançant prompts.
Implicacions al món real
Deixeu-me il·lustrar què permet això:
Flux de treball antic (5+ hores):
- Escriure guió i storyboard
- Generar clips de vídeo (30 min)
- Revisar i regenerar clips problemàtics (1 hora)
- Generar àudio per separat (30 min)
- Obrir editor d'àudio
- Sincronitzar manualment àudio amb vídeo (2+ hores)
- Arreglar problemes de sincronització, re-renderitzar (1 hora)
- Exportar versió final
Flux de treball Kling O1 (30 min):
- Escriure prompt descrivint l'escena audiovisual
- Generar clip complet
- Revisar i iterar si cal
- Exportar
Això no és una millora incremental. És un canvi de categoria en el que significa "generació de vídeo amb IA".
Com es compara
L'espai del vídeo amb IA s'ha tornat molt poblat. Aquí és on encaixa Kling O1:
- Arquitectura multimodal unificada real
- Generació audiovisual nativa
- Bona comprensió del moviment
- Qualitat visual competitiva
- Sense artefactes de sincronització per disseny
- Model més nou, encara madurant
- Menys eines d'ecosistema que Runway
- Documentació principalment en xinès
- Accés a l'API encara desplegant-se globalment
Contra el panorama actual:
| Model | Qualitat visual | Àudio | Arquitectura unificada | Accés |
|---|---|---|---|---|
| Runway Gen-4.5 | #1 a l'Arena | Post-afegir | No | Global |
| Sora 2 | Fort | Natiu | Sí | Limitat |
| Veo 3 | Fort | Natiu | Sí | API |
| Kling O1 | Fort | Natiu | Sí | Desplegant-se |
El panorama ha canviat: les arquitectures audiovisuals unificades s'estan convertint en l'estàndard per als models de primer nivell. Runway segueix sent l'excepció amb fluxos de treball d'àudio separats.
L'impuls xinès del vídeo amb IA
El Kling de Kuaishou forma part d'un patró més ampli. Les empreses tecnològiques xineses estan llançant models de vídeo impressionants a un ritme notable.
Només en les últimes dues setmanes:
- ByteDance Vidi2: model de codi obert de 12B paràmetres
- Tencent HunyuanVideo-1.5: compatible amb GPUs de consum (14GB VRAM)
- Kuaishou Kling O1: primer multimodal unificat
- Kuaishou Kling 2.6: audiovisual preparat per a producció
Per saber més sobre el costat de codi obert d'aquest impuls, consulteu La revolució del vídeo amb IA de codi obert.
Això no és coincidència. Aquestes empreses s'enfronten a restriccions d'exportació de xips i limitacions de serveis al núvol dels EUA. La seva resposta? Construir de manera diferent, llançar obertament, competir en innovació d'arquitectura en lloc de càlcul en brut.
Què significa això per als creadors
Si estàs creant contingut de vídeo, aquí tens la meva reflexió actualitzada:
- ✓Contingut social ràpid: la generació unificada de Kling 2.6 és perfecta
- ✓Màxima qualitat visual: Runway Gen-4.5 encara lidera
- ✓Projectes centrats en àudio: Kling O1 o Sora 2
- ✓Generació local/privada: codi obert (HunyuanVideo, Vidi2)
La resposta de "l'eina correcta" s'ha complicat més. Però això és bo. La competència significa opcions, i les opcions signifiquen que pots ajustar l'eina a la tasca en lloc de comprometre.
El panorama general
Estem presenciant la transició de "generació de vídeo amb IA" a "generació d'experiències audiovisuals amb IA". Kling O1 s'uneix a Sora 2 i Veo 3 com a models construïts per a la destinació en lloc d'iterar des del punt de partida.
L'analogia a la qual torno sempre: els primers smartphones eren telèfons amb apps afegides. L'iPhone era un ordinador que podia fer trucades. Les mateixes capacitats sobre el paper, enfocament fonamentalment diferent.
Kling O1, com Sora 2 i Veo 3, està construït des de zero com un sistema audiovisual. Els models anteriors eren sistemes de vídeo amb àudio afegit. L'enfocament unificat tracta el so i la visió com aspectes inseparables d'una única realitat.
Prova-ho tu mateix
Kling és accessible a través de la seva plataforma web, amb accés a l'API expandint-se. Si vols experimentar com se sent la generació multimodal unificada:
- Comença amb alguna cosa simple: una pilota botant, pluja a una finestra
- Observa com el so pertany al visual
- Prova alguna cosa complexa: una conversa, una escena de carrer animada
- Sent la diferència respecte a l'àudio post-sincronitzat
La tecnologia és jove. Alguns prompts decebran. Però quan funciona, sentiràs el canvi. Això no és vídeo més àudio. Això és generació d'experiències.
Què ve després
Les implicacions s'estenen més enllà de la creació de vídeo:
A curt termini (2026):
- Generacions unificades més llargues
- AV interactiu en temps real
- Expansió del control detallat
- Més models adoptant arquitectura unificada
A mitjà termini (2027+):
- Comprensió completa d'escenes
- Experiències AV interactives
- Eines de producció virtual
- Nous mitjans creatius completament nous
La distància entre imaginar una experiència i crear-la continua col·lapsant. Kling O1 no és la resposta final, però és un senyal clar de la direcció: unificat, holístic, experiencial.
El desembre de 2025 s'està convertint en un mes clau per al vídeo amb IA. La victòria de Runway a l'arena, les explosions de codi obert de ByteDance i Tencent, i l'entrada de Kling a l'espai multimodal unificat. Les eines estan evolucionant més ràpid del que ningú havia predit.
Si estàs construint amb vídeo d'IA, presta atenció a Kling. No perquè sigui el millor en tot avui, sinó perquè representa cap a on es dirigeix tot demà.
El futur del vídeo amb IA no és millor vídeo més millor àudio. És intel·ligència audiovisual unificada. I aquest futur acaba d'arribar.
Fonts
- Anunci del llançament de Kling O1 (Yahoo Finance)
- Kling Video 2.6 amb generació audiovisual (PR Newswire)
- Kling O1 model multimodal unificat (PR Newswire)
- Anàlisi de China Kuaishou Kling O1 (eWeek)
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Sora 2 vs Runway Gen-4.5 vs Veo 3: comparativa de generació de vídeo IA 2025
Comparativa exhaustiva dels tres principals generadors de vídeo amb IA del desembre de 2025. Detallem la qualitat visual, les característiques d'àudio, els preus i els millors casos d'ús per a cada eina.

La nova capa d'infraestructura d'IA de vídeo: AWS i Decart lideren la generació en temps real
AWS aposta per la generació de vídeo amb IA en temps real amb noves GPUs Trainium3, mentre la startup Decart demostra 60 FPS de generació interactiva. L'era del renderitzat en temps real amb IA és aquí.