Meta Pixel
HenryHenry
7 min read
1222 ord

Kling O1: Kuaishou deltar i kappløpet om unified multimodal video

Kuaishou har nettopp lansert Kling O1, en unified multimodal AI som tenker i video, lyd og tekst samtidig. Kappløpet om audiovisuell intelligens intensiveres.

Kling O1: Kuaishou deltar i kappløpet om unified multimodal video

Mens alle så Runway feire sin Video Arena-seier slapp Kuaishou stille noe betydelig. Kling O1 er ikke bare enda en videomodell. Den representerer en ny bølge av unified multimodale arkitekturer som behandler video, lyd og tekst som ett enkelt kognitivt system.

Hvorfor dette er annerledes

Jeg har skrevet om AI-video i flere år. Vi har sett modeller som genererer video fra tekst. Modeller som legger til lyd etterpå. Modeller som synkroniserer lyd til eksisterende video. Men Kling O1 gjør noe fundamentalt nytt: den tenker i alle modaliteter samtidig.

💡

Unified multimodal betyr at modellen ikke har separate "videoforståelse" og "lydgenerering" moduler skrudd sammen. Den har én arkitektur som behandler audiovisuell virkelighet som mennesker gjør: som en integrert helhet.

Forskjellen er subtil men massiv. Tidligere modeller fungerte som et filmcrew: regissør for bilder, lyddesigner for lyd, editor for synkronisering. Kling O1 fungerer som en enkelt hjerne som opplever verden.

Det tekniske spranget

O1
Arkitektur Generasjon
2.6
Forbrukerversjon
Dec 2025
Lanseringsdato

Her er hva som gjør Kling O1 annerledes på arkitekturnivå:

Tidligere tilnærming (Multi-Model)

  • Tekstkoder behandler prompt
  • Videomodell genererer frames
  • Lydmodell genererer lyd
  • Synkroniseringsmodell tilpasser outputs
  • Resultatene føles ofte frakoblet

Kling O1 (Unified)

  • Enkelt koder for alle modaliteter
  • Felles latent rom for lyd-video
  • Samtidig generering
  • Iboende synkronisering
  • Resultatene føles naturlig sammenhengende

Det praktiske resultatet? Når Kling O1 genererer en video av regn på et vindu genererer den ikke regnbilder og finner så ut hvordan regn høres ut. Den genererer opplevelsen av regn på et vindu, hvor lyd og syn oppstår sammen.

Kling Video 2.6: forbrukerversjonen

Ved siden av O1 slapp Kuaishou Kling Video 2.6 med simultan audio-visuell generering. Dette er den tilgjengelige versjonen av den unified tilnærmingen:

🎬

Generering i ett trinn

Video og lyd genereres i én prosess. Ingen post-synk, ingen manuell tilpasning. Hva du prompter er hva du får, komplett.

🎤

Fullt lydspektrum

Dialog, voiceovers, lydeffekter, ambient atmosfære. Alt generert naturlig, alt synkronisert til det visuelle innholdet.

Workflow revolusjon

Den tradisjonelle video-deretter-lyd pipelinen forsvinner. Generer komplett audiovisuelt innhold fra en enkelt prompt.

🎯

Profesjonell kontroll

Til tross for unified generering får du fortsatt kontroll over elementer. Juster stemning, tempo og stil gjennom prompting.

Praktiske implikasjoner

La meg male et bilde av hva dette muliggjør:

Gammelt arbeidsflyt (5+ timer):

  1. Skriv manus og storyboard
  2. Generer videoklipp (30 min)
  3. Se gjennom og regenerer problemklipp (1 time)
  4. Generer lyd separat (30 min)
  5. Åpne lydredigering
  6. Manuelt synkroniser lyd til video (2+ timer)
  7. Fikse synkroniseringsproblemer, render på nytt (1 time)
  8. Eksporter endelig versjon

Kling O1 arbeidsflyt (30 min):

  1. Skriv prompt som beskriver audiovisuell scene
  2. Generer komplett klipp
  3. Se gjennom og iterer om nødvendig
  4. Eksporter

Det er ikke en inkrementell forbedring. Det er et kategorihopp i hva "AI-videogenerering" betyr.

Hvordan den måler seg

AI-videoområdet har blitt overfylt. Her passer Kling O1:

Kling O1 styrker
  • Ekte unified multimodal arkitektur
  • Naturlig audio-visuell generering
  • Sterk bevegelsesforståelse
  • Konkurransedyktig visuell kvalitet
  • Ingen synkroniseringsartefakter ved design
Avveininger
  • Nyere modell, fortsatt under modning
  • Mindre økosystem verktøy enn Runway
  • Dokumentasjon primært på kinesisk
  • API-tilgang ruller fortsatt ut globalt

Mot det nåværende landskapet:

ModellVisuell kvalitetLydUnified arkitekturTilgang
Runway Gen-4.5#1 på ArenaPost-addNeiGlobal
Sora 2SterkNaturligJaBegrenset
Veo 3SterkNaturligJaAPI
Kling O1SterkNaturligJaRuller ut

Landskapet har endret seg: unified audio-visuelle arkitekturer blir standarden for toppmodeller. Runway forblir unntaket med separate lydarbeidsflyter.

Den kinesiske AI-video-satsingen

💡

Kuaishous Kling er en del av et bredere mønster. Kinesiske techselskaper leverer imponerende videomodeller i et bemerkelsesverdig tempo.

Bare de siste to ukene:

  • ByteDance Vidi2: 12B parameter open-source modell
  • Tencent HunyuanVideo-1.5: Forbruker GPU-vennlig (14GB VRAM)
  • Kuaishou Kling O1: Første unified multimodal
  • Kuaishou Kling 2.6: Produksjonsklar audio-visuell

For mer om open-source siden av denne satsingen, se Den Open-Source AI Video-revolusjonen.

Dette er ikke tilfeldig. Disse selskapene møter chipeksportrestriksjoner og begrensninger på amerikanske skytjenester. Deres svar? Bygg annerledes, slipp åpent, konkurrér på arkitekturinnovasjon heller enn ren beregningskraft.

Hva dette betyr for skapere

Hvis du lager videoinnhold er her min oppdaterte tenkning:

  • Raskt sosialt innhold: Kling 2.6's unified generering er perfekt
  • Maksimal visuell kvalitet: Runway Gen-4.5 leder fortsatt
  • Lyd-først prosjekter: Kling O1 eller Sora 2
  • Lokal/privat generering: Open-source (HunyuanVideo, Vidi2)

Det "riktige verktøyet" svaret ble nettopp mer komplisert. Men det er bra. Konkurranse betyr alternativer, og alternativer betyr at du kan matche verktøy til oppgave i stedet for å kompromisse.

Det større bildet

⚠️

Vi bevitner overgangen fra "AI-videogenerering" til "AI audiovisuell opplevelsegenerering." Kling O1 slutter seg til Sora 2 og Veo 3 som modeller bygget for destinasjonen heller enn å iterere fra startpunktet.

Analogien jeg fortsetter å vende tilbake til: tidlige smarttelefoner var telefoner med apper lagt til. iPhone var en datamaskin som kunne ringe. Samme kapasitet på papiret, fundamentalt annerledes tilnærming.

Kling O1, som Sora 2 og Veo 3, er bygget fra grunnen som et audiovisuelt system. Tidligere modeller var videosystemer med lyd skrudd på. Den unified tilnærmingen behandler lyd og syn som uatskillelige aspekter av en enkelt virkelighet.

Prøv selv

Kling er tilgjengelig gjennom deres webplattform, med API-tilgang som ekspanderer. Hvis du vil oppleve hvordan unified multimodal generering føles:

  1. Start med noe enkelt: en sprettball, regn på et vindu
  2. Legg merke til hvordan lyden hører til det visuelle
  3. Prøv noe komplekst: en samtale, en travel gatescene
  4. Kjenn forskjellen fra post-synkronisert lyd

Teknologien er ung. Noen prompter vil skuffe. Men når det fungerer vil du kjenne endringen. Dette er ikke video pluss lyd. Dette er opplevelsegenerering.

Hva kommer videre

Implikasjonene strekker seg utover videoskaping:

Nær fremtid (2026):

  • Lengre unified genereringer
  • Sanntids interaktiv AV
  • Finmasket kontroll ekspansjon
  • Flere modeller adopterer unified arch

Mellomlang sikt (2027+):

  • Full sceneforståelse
  • Interaktive AV-opplevelser
  • Virtuelle produksjonsverktøy
  • Helt nye kreative medier

Gapet mellom å forestille seg en opplevelse og skape den fortsetter å kollapse. Kling O1 er ikke det endelige svaret, men det er et klart signal om retningen: unified, holistisk, opplevelsesmessig.

Desember 2025 viser seg å bli en avgjørende måned for AI-video. Runways arena-seier, open-source eksplosjoner fra ByteDance og Tencent, og Klings inntreden i det unified multimodale rommet. Verktøyene utvikler seg raskere enn noen forutså.

Hvis du bygger med AI-video, vær oppmerksom på Kling. Ikke fordi den er best på alt i dag, men fordi den representerer hvor alt er på vei i morgen.

Fremtiden for AI-video er ikke bedre video pluss bedre lyd. Det er unified audiovisuell intelligens. Og den fremtiden har nettopp ankommet.


Kilder

Var denne artikkelen nyttig?

Henry

Henry

Kreativ teknolog

Kreativ teknolog fra Lausanne som utforsker hvor KI møter kunst. Eksperimenterer med generative modeller mellom elektroniske musikksesjoner.

Relaterte artikler

Fortsett å utforske med disse relaterte innleggene

Likte du denne artikkelen?

Oppdag mer innsikt og hold deg oppdatert på vårt nyeste innhold.

Kling O1: Kuaishou deltar i kappløpet om unified multimodal video