Kling O1: Kuaishou deltager i løbet om unified multimodal video
Kuaishou har netop lanceret Kling O1, en unified multimodal AI der tænker i video, lyd og tekst samtidigt. Kapløbet om audiovisuel intelligens tager fart.

Mens alle så Runway fejre sin Video Arena sejr, lancerede Kuaishou stille noget væsentligt. Kling O1 er ikke bare endnu en videomodel. Den repræsenterer en ny bølge af unified multimodale arkitekturer, der behandler video, lyd og tekst som et enkelt kognitivt system.
Hvorfor dette er anderledes
Jeg har skrevet om AI-video i årevis. Vi har set modeller, der genererer video fra tekst. Modeller, der tilføjer lyd bagefter. Modeller, der synkroniserer lyd til eksisterende video. Men Kling O1 gør noget grundlæggende nyt: den tænker i alle modaliteter på én gang.
Unified multimodal betyder, at modellen ikke har separate "videoforståelse" og "lydgenerering" moduler, der er skruet sammen. Den har én arkitektur, der behandler audiovisuel virkelighed, som mennesker gør: som en integreret helhed.
Forskellen er subtil, men massiv. Tidligere modeller fungerede som et filmhold: instruktør til billeder, lyddesigner til lyd, editor til synkronisering. Kling O1 fungerer som en enkelt hjerne, der oplever verden.
Det tekniske spring
Her er, hvad der gør Kling O1 anderledes på arkitekturniveau:
Tidligere tilgang (Multi-Model)
- Tekstenkoder behandler prompt
- Videomodel genererer frames
- Lydmodel genererer lyd
- Synkroniseringsmodel tilpasser outputs
- Resultater føles ofte adskilte
Kling O1 (Unified)
- Enkelt enkoder til alle modaliteter
- Fælles latent rum for lyd-video
- Samtidig generering
- Iboende synkronisering
- Resultater føles naturligt sammenhængende
Det praktiske resultat? Når Kling O1 genererer en video af regn på et vindue, genererer den ikke regnbilleder og finder så ud af, hvordan regn lyder. Den genererer oplevelsen af regn på et vindue, hvor lyd og syn opstår sammen.
Kling Video 2.6: forbrugerversionen
Ved siden af O1 udgav Kuaishou Kling Video 2.6 med samtidig audio-visuel generering. Dette er den tilgængelige version af den unified tilgang:
Generering i ét trin
Video og lyd genereres i én proces. Ingen post-synk, ingen manuel tilpasning. Hvad du prompter er, hvad du får, komplet.
Fuldt lydspektrum
Dialog, voiceovers, lydeffekter, ambient atmosfære. Alt genereret naturligt, alt synkroniseret til det visuelle indhold.
Workflow revolution
Den traditionelle video-derefter-lyd pipeline forsvinder. Generer komplet audiovisuelt indhold fra en enkelt prompt.
Professionel kontrol
På trods af unified generering får du stadig kontrol over elementer. Juster stemning, tempo og stil gennem prompting.
Praktiske implikationer
Lad mig tegne et billede af, hvad dette muliggør:
Gammelt workflow (5+ timer):
- Skriv manuskript og storyboard
- Generer videoklip (30 min)
- Gennemse og regenerer problemklip (1 time)
- Generer lyd separat (30 min)
- Åbn lydredigering
- Manuelt synkroniser lyd til video (2+ timer)
- Ret synkroniseringsproblemer, render igen (1 time)
- Eksporter endelig version
Kling O1 workflow (30 min):
- Skriv prompt, der beskriver audiovisuel scene
- Generer komplet klip
- Gennemse og iterer hvis nødvendigt
- Eksporter
Det er ikke en trinvis forbedring. Det er et kategorieskift i, hvad "AI-videogenerering" betyder.
Hvordan den klarer sig
AI-videoområdet er blevet overfyldt. Her passer Kling O1:
- Ægte unified multimodal arkitektur
- Naturlig audio-visuel generering
- Stærk bevægelsesforståelse
- Konkurrencedygtig visuel kvalitet
- Ingen synkroniseringsartefakter ved design
- Nyere model, stadig under modning
- Mindre økosystem værktøjer end Runway
- Dokumentation primært på kinesisk
- API-adgang ruller stadig ud globalt
Mod det nuværende landskab:
| Model | Visuel kvalitet | Lyd | Unified arkitektur | Adgang |
|---|---|---|---|---|
| Runway Gen-4.5 | #1 på Arena | Post-add | Nej | Global |
| Sora 2 | Stærk | Naturlig | Ja | Begrænset |
| Veo 3 | Stærk | Naturlig | Ja | API |
| Kling O1 | Stærk | Naturlig | Ja | Ruller ud |
Landskabet er forskudt: unified audio-visuelle arkitekturer bliver standarden for topmodeller. Runway forbliver undtagelsen med separate lydworkflows.
Det kinesiske AI-video fremstød
Kuaishous Kling er en del af et bredere mønster. Kinesiske techvirksomheder leverer imponerende videomodeller i et bemærkelsesværdigt tempo.
Alene i de sidste to uger:
- ByteDance Vidi2: 12B parameter open-source model
- Tencent HunyuanVideo-1.5: Forbruger GPU-venlig (14GB VRAM)
- Kuaishou Kling O1: Første unified multimodal
- Kuaishou Kling 2.6: Produktionsklar audio-visuel
For mere om open-source siden af dette fremstød, se Den Open-Source AI Video Revolution.
Dette er ikke tilfældigt. Disse virksomheder står over for chipeksportrestriktioner og begrænsninger på amerikanske cloudtjenester. Deres svar? Byg anderledes, udgiv åbent, konkurrér på arkitekturinnovation frem for ren beregningskraft.
Hvad dette betyder for skabere
Hvis du laver videoindhold, er her min opdaterede tænkning:
- ✓Hurtigt socialt indhold: Kling 2.6's unified generering er perfekt
- ✓Maksimal visuel kvalitet: Runway Gen-4.5 fører stadig
- ✓Lyd-først projekter: Kling O1 eller Sora 2
- ✓Lokal/privat generering: Open-source (HunyuanVideo, Vidi2)
Det "rigtige værktøj" svar er lige blevet mere kompliceret. Men det er godt. Konkurrence betyder valgmuligheder, og valgmuligheder betyder, at du kan matche værktøj til opgave i stedet for at gå på kompromis.
Det større billede
Vi er vidne til overgangen fra "AI-videogenerering" til "AI audiovisuel oplevelsesgenerering." Kling O1 slutter sig til Sora 2 og Veo 3 som modeller bygget til destinationen frem for at iterere fra startpunktet.
Analogien jeg bliver ved med at vende tilbage til: tidlige smartphones var telefoner med apps tilføjet. iPhone'en var en computer, der kunne foretage opkald. Samme kapaciteter på papiret, grundlæggende anderledes tilgang.
Kling O1, ligesom Sora 2 og Veo 3, er bygget fra bunden som et audiovisuelt system. Tidligere modeller var videosystemer med lyd skruet på. Den unified tilgang behandler lyd og syn som uadskillelige aspekter af en enkelt virkelighed.
Prøv det selv
Kling er tilgængelig gennem deres webplatform, med API-adgang der udvides. Hvis du vil opleve, hvordan unified multimodal generering føles:
- Start med noget simpelt: en hoppende bold, regn på et vindue
- Læg mærke til, hvordan lyden tilhører det visuelle
- Prøv noget komplekst: en samtale, en travl gadesce
- Mærk forskellen fra post-synkroniseret lyd
Teknologien er ung. Nogle prompts vil skuffe. Men når det virker, vil du mærke skiftet. Dette er ikke video plus lyd. Dette er oplevelsesgenerering.
Hvad kommer næste
Implikationerne strækker sig ud over videoskabelse:
Nær fremtid (2026):
- Længere unified genereringer
- Realtids interaktiv AV
- Finjusteret kontrol udvidelse
- Flere modeller adopterer unified arch
Mellemlang sigt (2027+):
- Fuld sceneforståelse
- Interaktive AV-oplevelser
- Virtuelle produktionsværktøjer
- Helt nye kreative medier
Kløften mellem at forestille sig en oplevelse og skabe den fortsætter med at kollapse. Kling O1 er ikke det endelige svar, men det er et klart signal om retningen: unified, holistisk, erfaringsbaseret.
December 2025 viser sig at blive en afgørende måned for AI-video. Runways arena sejr, open-source eksplosioner fra ByteDance og Tencent, og Klings indtræden i den unified multimodale plads. Værktøjerne udvikler sig hurtigere end nogen forudsagde.
Hvis du bygger med AI-video, vær opmærksom på Kling. Ikke fordi den er den bedste til alt i dag, men fordi den repræsenterer, hvor alt er på vej hen i morgen.
Fremtiden for AI-video er ikke bedre video plus bedre lyd. Det er unified audiovisuel intelligens. Og den fremtid er lige ankommet.
Kilder
- Kling O1 Launch Announcement (Yahoo Finance)
- Kling Video 2.6 with Audio-Visual Generation (PR Newswire)
- Kling O1 Unified Multimodal Model (PR Newswire)
- China Kuaishou Kling O1 Analysis (eWeek)
Var denne artikel nyttig?

Henry
Kreativ teknologKreativ teknolog fra Lausanne, der udforsker hvor AI møder kunst. Eksperimenterer med generative modeller mellem elektroniske musiksessioner.
Relaterede artikler
Fortsæt med at udforske disse relaterede indlæg

MiniMax Hailuo 02: Kinas budget-AI-videomodel stiller sig op mod giganter
Hailuo 02 leverer konkurrencedygtig videokvalitet for en brøkdel af omkostningerne, med 10 videoer til prisen på en Veo 3-klip. Her er hvad der gør denne kinesiske udfordrer værd at følge.

Karakterkonsistens i AI-video: Hvordan modeller lærer at huske ansigter
Et teknisk dybdegående indblik i de arkitektoniske forbedringer, der gør det muligt for AI-videomodeller at bibeholde karakteridentitet på tværs af optagelser, fra opmærksomhedsmekanismer til identitetsbevarende indlejringer.

Open source AI-video revolutionen: Kan forbruger GPU'er konkurrere med tech-giganterne?
ByteDance og Tencent har netop frigivet open source videomodeller, der kører på almindelig forbrugerhardware. Det ændrer alt for uafhængige skabere.