Meta Pixel
HenryHenry
7 min read
1239 ord

Kling O1: Kuaishou deltager i løbet om unified multimodal video

Kuaishou har netop lanceret Kling O1, en unified multimodal AI der tænker i video, lyd og tekst samtidigt. Kapløbet om audiovisuel intelligens tager fart.

Kling O1: Kuaishou deltager i løbet om unified multimodal video

Mens alle så Runway fejre sin Video Arena sejr, lancerede Kuaishou stille noget væsentligt. Kling O1 er ikke bare endnu en videomodel. Den repræsenterer en ny bølge af unified multimodale arkitekturer, der behandler video, lyd og tekst som et enkelt kognitivt system.

Hvorfor dette er anderledes

Jeg har skrevet om AI-video i årevis. Vi har set modeller, der genererer video fra tekst. Modeller, der tilføjer lyd bagefter. Modeller, der synkroniserer lyd til eksisterende video. Men Kling O1 gør noget grundlæggende nyt: den tænker i alle modaliteter på én gang.

💡

Unified multimodal betyder, at modellen ikke har separate "videoforståelse" og "lydgenerering" moduler, der er skruet sammen. Den har én arkitektur, der behandler audiovisuel virkelighed, som mennesker gør: som en integreret helhed.

Forskellen er subtil, men massiv. Tidligere modeller fungerede som et filmhold: instruktør til billeder, lyddesigner til lyd, editor til synkronisering. Kling O1 fungerer som en enkelt hjerne, der oplever verden.

Det tekniske spring

O1
Arkitektur Generation
2.6
Forbrugerversion
Dec 2025
Udgivelsesdato

Her er, hvad der gør Kling O1 anderledes på arkitekturniveau:

Tidligere tilgang (Multi-Model)

  • Tekstenkoder behandler prompt
  • Videomodel genererer frames
  • Lydmodel genererer lyd
  • Synkroniseringsmodel tilpasser outputs
  • Resultater føles ofte adskilte

Kling O1 (Unified)

  • Enkelt enkoder til alle modaliteter
  • Fælles latent rum for lyd-video
  • Samtidig generering
  • Iboende synkronisering
  • Resultater føles naturligt sammenhængende

Det praktiske resultat? Når Kling O1 genererer en video af regn på et vindue, genererer den ikke regnbilleder og finder så ud af, hvordan regn lyder. Den genererer oplevelsen af regn på et vindue, hvor lyd og syn opstår sammen.

Kling Video 2.6: forbrugerversionen

Ved siden af O1 udgav Kuaishou Kling Video 2.6 med samtidig audio-visuel generering. Dette er den tilgængelige version af den unified tilgang:

🎬

Generering i ét trin

Video og lyd genereres i én proces. Ingen post-synk, ingen manuel tilpasning. Hvad du prompter er, hvad du får, komplet.

🎤

Fuldt lydspektrum

Dialog, voiceovers, lydeffekter, ambient atmosfære. Alt genereret naturligt, alt synkroniseret til det visuelle indhold.

Workflow revolution

Den traditionelle video-derefter-lyd pipeline forsvinder. Generer komplet audiovisuelt indhold fra en enkelt prompt.

🎯

Professionel kontrol

På trods af unified generering får du stadig kontrol over elementer. Juster stemning, tempo og stil gennem prompting.

Praktiske implikationer

Lad mig tegne et billede af, hvad dette muliggør:

Gammelt workflow (5+ timer):

  1. Skriv manuskript og storyboard
  2. Generer videoklip (30 min)
  3. Gennemse og regenerer problemklip (1 time)
  4. Generer lyd separat (30 min)
  5. Åbn lydredigering
  6. Manuelt synkroniser lyd til video (2+ timer)
  7. Ret synkroniseringsproblemer, render igen (1 time)
  8. Eksporter endelig version

Kling O1 workflow (30 min):

  1. Skriv prompt, der beskriver audiovisuel scene
  2. Generer komplet klip
  3. Gennemse og iterer hvis nødvendigt
  4. Eksporter

Det er ikke en trinvis forbedring. Det er et kategorieskift i, hvad "AI-videogenerering" betyder.

Hvordan den klarer sig

AI-videoområdet er blevet overfyldt. Her passer Kling O1:

Kling O1 styrker
  • Ægte unified multimodal arkitektur
  • Naturlig audio-visuel generering
  • Stærk bevægelsesforståelse
  • Konkurrencedygtig visuel kvalitet
  • Ingen synkroniseringsartefakter ved design
Afvejninger
  • Nyere model, stadig under modning
  • Mindre økosystem værktøjer end Runway
  • Dokumentation primært på kinesisk
  • API-adgang ruller stadig ud globalt

Mod det nuværende landskab:

ModelVisuel kvalitetLydUnified arkitekturAdgang
Runway Gen-4.5#1 på ArenaPost-addNejGlobal
Sora 2StærkNaturligJaBegrænset
Veo 3StærkNaturligJaAPI
Kling O1StærkNaturligJaRuller ud

Landskabet er forskudt: unified audio-visuelle arkitekturer bliver standarden for topmodeller. Runway forbliver undtagelsen med separate lydworkflows.

Det kinesiske AI-video fremstød

💡

Kuaishous Kling er en del af et bredere mønster. Kinesiske techvirksomheder leverer imponerende videomodeller i et bemærkelsesværdigt tempo.

Alene i de sidste to uger:

  • ByteDance Vidi2: 12B parameter open-source model
  • Tencent HunyuanVideo-1.5: Forbruger GPU-venlig (14GB VRAM)
  • Kuaishou Kling O1: Første unified multimodal
  • Kuaishou Kling 2.6: Produktionsklar audio-visuel

For mere om open-source siden af dette fremstød, se Den Open-Source AI Video Revolution.

Dette er ikke tilfældigt. Disse virksomheder står over for chipeksportrestriktioner og begrænsninger på amerikanske cloudtjenester. Deres svar? Byg anderledes, udgiv åbent, konkurrér på arkitekturinnovation frem for ren beregningskraft.

Hvad dette betyder for skabere

Hvis du laver videoindhold, er her min opdaterede tænkning:

  • Hurtigt socialt indhold: Kling 2.6's unified generering er perfekt
  • Maksimal visuel kvalitet: Runway Gen-4.5 fører stadig
  • Lyd-først projekter: Kling O1 eller Sora 2
  • Lokal/privat generering: Open-source (HunyuanVideo, Vidi2)

Det "rigtige værktøj" svar er lige blevet mere kompliceret. Men det er godt. Konkurrence betyder valgmuligheder, og valgmuligheder betyder, at du kan matche værktøj til opgave i stedet for at gå på kompromis.

Det større billede

⚠️

Vi er vidne til overgangen fra "AI-videogenerering" til "AI audiovisuel oplevelsesgenerering." Kling O1 slutter sig til Sora 2 og Veo 3 som modeller bygget til destinationen frem for at iterere fra startpunktet.

Analogien jeg bliver ved med at vende tilbage til: tidlige smartphones var telefoner med apps tilføjet. iPhone'en var en computer, der kunne foretage opkald. Samme kapaciteter på papiret, grundlæggende anderledes tilgang.

Kling O1, ligesom Sora 2 og Veo 3, er bygget fra bunden som et audiovisuelt system. Tidligere modeller var videosystemer med lyd skruet på. Den unified tilgang behandler lyd og syn som uadskillelige aspekter af en enkelt virkelighed.

Prøv det selv

Kling er tilgængelig gennem deres webplatform, med API-adgang der udvides. Hvis du vil opleve, hvordan unified multimodal generering føles:

  1. Start med noget simpelt: en hoppende bold, regn på et vindue
  2. Læg mærke til, hvordan lyden tilhører det visuelle
  3. Prøv noget komplekst: en samtale, en travl gadesce
  4. Mærk forskellen fra post-synkroniseret lyd

Teknologien er ung. Nogle prompts vil skuffe. Men når det virker, vil du mærke skiftet. Dette er ikke video plus lyd. Dette er oplevelsesgenerering.

Hvad kommer næste

Implikationerne strækker sig ud over videoskabelse:

Nær fremtid (2026):

  • Længere unified genereringer
  • Realtids interaktiv AV
  • Finjusteret kontrol udvidelse
  • Flere modeller adopterer unified arch

Mellemlang sigt (2027+):

  • Fuld sceneforståelse
  • Interaktive AV-oplevelser
  • Virtuelle produktionsværktøjer
  • Helt nye kreative medier

Kløften mellem at forestille sig en oplevelse og skabe den fortsætter med at kollapse. Kling O1 er ikke det endelige svar, men det er et klart signal om retningen: unified, holistisk, erfaringsbaseret.

December 2025 viser sig at blive en afgørende måned for AI-video. Runways arena sejr, open-source eksplosioner fra ByteDance og Tencent, og Klings indtræden i den unified multimodale plads. Værktøjerne udvikler sig hurtigere end nogen forudsagde.

Hvis du bygger med AI-video, vær opmærksom på Kling. Ikke fordi den er den bedste til alt i dag, men fordi den repræsenterer, hvor alt er på vej hen i morgen.

Fremtiden for AI-video er ikke bedre video plus bedre lyd. Det er unified audiovisuel intelligens. Og den fremtid er lige ankommet.


Kilder

Var denne artikel nyttig?

Henry

Henry

Kreativ teknolog

Kreativ teknolog fra Lausanne, der udforsker hvor AI møder kunst. Eksperimenterer med generative modeller mellem elektroniske musiksessioner.

Relaterede artikler

Fortsæt med at udforske disse relaterede indlæg

Kunne du lide artiklen?

Få mere indsigt, og hold dig opdateret med vores nyeste indhold.

Kling O1: Kuaishou deltager i løbet om unified multimodal video