Kling O1: Kuaishou Pievienojas Vienotās Multimodālās Video Sacensībās
Kuaishou tikko palaida Kling O1, vienotu multimodālo AI, kas domā videoformātā, audio un tekstā vienlaicīgi. Sacensības par audiovizuālo inteliģenci saasinājas.

Kamēr visi vēroja, kā Runway svin savu Video Arena uzvaru, Kuaishou klusi izlaida kaut ko nozīmīgu. Kling O1 nav tikai vēl viens video modelis. Tas pārstāv jaunu vienoto multimodālo arhitektūru vilni, kas apstrādā video, audio un tekstu kā vienotu kognitīvo sistēmu.
Kāpēc Tas Ir Atšķirīgs
Esmu pārklājis AI video jau gadiem. Esam redzējuši modeļus, kas ģenerē video no teksta. Modeļus, kas pievieno audio vēlāk. Modeļus, kas sinhronizē audio ar esošo video. Bet Kling O1 dara kaut ko fundamentāli jaunu: tas domā visās modalitātēs vienlaikus.
Vienots multimodālais nozīmē, ka modelim nav atsevišķu "video izpratnes" un "audio ģenerēšanas" moduļu saplāksnēti kopā. Tam ir viena arhitektūra, kas apstrādā audiovizuālo realitāti tāpat kā cilvēki: kā integrētu veselumu.
Atšķirība ir smalka, bet milzīga. Iepriekšējie modeļi strādāja kā filmu komanda: režisors vizuālajiem elementiem, skaņu dizainers audio, redaktors sinhronizācijai. Kling O1 strādā kā vienas smadzenes, kas piedzīvo pasauli.
Tehniskais Lēciens
Šeit ir tas, kas padara Kling O1 atšķirīgu arhitektūras līmenī:
Iepriekšējā Pieeja (Vairāku Modeļu)
- Teksta kodētājs apstrādā uzvedni
- Video modelis ģenerē kadrus
- Audio modelis ģenerē skaņu
- Sinhronizācijas modelis saskaņo izvades
- Rezultāti bieži šķiet atvienoti
Kling O1 (Vienots)
- Vienots kodētājs visām modalitātēm
- Kopēja latentā telpa audio-video
- Vienlaicīga ģenerēšana
- Iebūvēta sinhronizācija
- Rezultāti šķiet dabiski saskaņoti
Praktiskais rezultāts? Kad Kling O1 ģenerē video ar lietu uz loga, tas neģenerē lietus vizuālos elementus un pēc tam izdomā, kā lietus skan. Tas ģenerē lietus pieredzi uz loga, skaņa un redze rodas kopā.
Kling Video 2.6: Patērētāja Versija
Kopā ar O1, Kuaishou izlaida Kling Video 2.6 ar vienlaicīgu audiovizuālo ģenerēšanu. Šī ir vienotās pieejas pieejamā versija:
Vienas Caurejās Ģenerēšana
Video un audio ģenerējas vienā procesā. Nav pēcapstrādes sinhronizācijas, nav manuālas saskaņošanas. Ko pieprasi, to saņem, pilnībā.
Pilns Audio Spektrs
Dialogs, stāstījumi, skaņas efekti, apkārtējā atmosfēra. Viss ģenerēts dabiski, viss sinhronizēts ar vizuālo saturu.
Darba Plūsmas Revolūcija
Tradicionālā video-pēc tam-audio konveijera līnija pazūd. Ģenerē pilnīgu audiovizuālo saturu no vienas uzvednes.
Profesionāla Kontrole
Neskatoties uz vienotu ģenerēšanu, jūs joprojām saņemat kontroli pār elementiem. Pielāgojiet noskaņu, tempu un stilu, izmantojot uzvednes.
Reālās Pasaules Sekas
Ļaujiet man uzzīmēt ainu par to, ko tas ļauj:
Vecā Darba Plūsma (5+ stundas):
- Uzrakstiet scenāriju un stāstu dēli
- Ģenerējiet video klipus (30 min)
- Pārskatiet un pārģenerējiet problēmu klipus (1 stunda)
- Ģenerējiet audio atsevišķi (30 min)
- Atveriet audio redaktoru
- Manuāli sinhronizējiet audio ar video (2+ stundas)
- Labojiet sinhronizācijas problēmas, atkārtoti renderējiet (1 stunda)
- Eksportējiet galīgo versiju
Kling O1 Darba Plūsma (30 min):
- Uzrakstiet uzvedni, kas apraksta audiovizuālo ainu
- Ģenerējiet pilnu klipu
- Pārskatiet un iterējiet, ja nepieciešams
- Eksportējiet
Tas nav pakāpenisks uzlabojums. Tas ir kategorijas maiņa tajā, ko nozīmē "AI video ģenerēšana".
Kā Tas Salīdzinās
AI video telpa ir kļuvusi pārpildīta. Šeit ir, kur iederas Kling O1:
- Patiesa vienota multimodāla arhitektūra
- Dabiska audio-vizuāla ģenerēšana
- Spēcīga kustības izpratne
- Konkurētspējīga vizuāla kvalitāte
- Pēc dizaina nav sinhronizācijas artefaktu
- Jaunāks modelis, joprojām nobriestošs
- Mazāk ekosistēmas rīku nekā Runway
- Dokumentācija galvenokārt ķīniešu valodā
- API piekļuve joprojām izplatās globāli
Pret pašreizējo ainavu:
| Modelis | Vizuālā Kvalitāte | Audio | Vienota Arhitektūra | Piekļuve |
|---|---|---|---|---|
| Runway Gen-4.5 | #1 Arēnā | Pēcpievienošana | Nē | Globāla |
| Sora 2 | Spēcīgs | Dabisks | Jā | Ierobežots |
| Veo 3 | Spēcīgs | Dabisks | Jā | API |
| Kling O1 | Spēcīgs | Dabisks | Jā | Izplatās |
Ainava ir mainījusies: vienotās audio-vizuālās arhitektūras kļūst par standartu augstākā līmeņa modeļiem. Runway paliek izņēmums ar atsevišķām audio darba plūsmām.
Ķīnas AI Video Virzība
Kuaishou Kling ir daļa no plašāka modeļa. Ķīnas tehnoloģiju uzņēmumi piegādā iespaidīgus video modeļus ar ievērojamu tempu.
Tikai pēdējo divu nedēļu laikā:
- ByteDance Vidi2: 12B parametru atvērtā koda modelis
- Tencent HunyuanVideo-1.5: Patērētāja GPU draudzīgs (14GB VRAM)
- Kuaishou Kling O1: Pirmais vienotais multimodālais
- Kuaishou Kling 2.6: Ražošanai gatavs audiovizuālais
Par vairāk par šīs virzības atvērtā koda pusi skatiet Atvērtā Koda AI Video Revolūcija.
Tas nav sakritība. Šie uzņēmumi saskaras ar mikroshēmu eksporta ierobežojumiem un ASV mākoņpakalpojumu ierobežojumiem. Viņu atbilde? Būvējiet citādi, izlaidiet atklāti, konkurējiet ar arhitektūras inovāciju, nevis neapstrādātu skaitļošanu.
Ko Tas Nozīmē Radītājiem
Ja jūs veidojat video saturu, šeit ir mana atjauninātā domāšana:
- ✓Ātrs sociālais saturs: Kling 2.6 vienotā ģenerēšana ir perfekta
- ✓Maksimālā vizuālā kvalitāte: Runway Gen-4.5 joprojām vada
- ✓Audio orientēti projekti: Kling O1 vai Sora 2
- ✓Lokālā/privātā ģenerēšana: Atvērtais kods (HunyuanVideo, Vidi2)
"Pareizā rīka" atbilde tikko kļuva sarežģītāka. Bet tas ir labi. Konkurence nozīmē izvēles, un izvēles nozīmē, ka varat saskaņot rīku ar uzdevumu, nevis kompromitēt.
Lielākā Aina
Mēs esam liecinieki pārejai no "AI video ģenerēšanas" uz "AI audiovizuālās pieredzes ģenerēšanu". Kling O1 pievienojas Sora 2 un Veo 3 kā modeļi, kas būvēti galamērķim, nevis iterējot no sākumpunkta.
Analoģija, pie kuras es pastāvīgi atgriežos: agrīnie viedtālruņi bija telefoni ar pievienotām lietotnēm. iPhone bija dators, kas varēja veikt zvanus. Tās pašas spējas uz papīra, fundamentāli atšķirīga pieeja.
Kling O1, tāpat kā Sora 2 un Veo 3, ir būvēts no pamatiem kā audiovizuāla sistēma. Agrākie modeļi bija video sistēmas ar pielipinātu audio. Vienotā pieeja uzskata skaņu un redzi par neatdalāmiem vienas realitātes aspektiem.
Izmēģiniet Pats
Kling ir pieejams caur viņu tīmekļa platformu, API piekļuve paplašinās. Ja vēlaties piedzīvot, kā jūtas vienota multimodāla ģenerēšana:
- Sāciet ar kaut ko vienkāršu: atlēcošā bumba, lietus uz loga
- Pamaniet, kā skaņa pieder vizuālajam
- Izmēģiniet kaut ko sarežģītu: saruna, rosīga ielas aina
- Sajūtiet atšķirību no pēcapstrādē sinhronizētā audio
Tehnoloģija ir jauna. Dažas uzvednes vilsies. Bet kad tas darbojas, jūs sajutīsiet maiņu. Tas nav video plus audio. Tas ir pieredzes ģenerēšana.
Kas Nāks Nākamais
Sekas sniedzas tālāk par video veidošanu:
Tuvākajā Nākotnē (2026):
- Garākas vienotas ģenerēšanas
- Reāllaika interaktīvs AV
- Smalkākas kontroles paplašinājums
- Vairāk modeļu pieņem vienotu arhitektūru
Vidēji Ilgā Termiņā (2027+):
- Pilna ainas izpratne
- Interaktīvas AV pieredzes
- Virtuālas ražošanas rīki
- Pilnīgi jauni radoši mediji
Plaisa starp pieredzes iedomāšanos un tās radīšanu turpina sabrukt. Kling O1 nav galīgā atbilde, bet tas ir skaidrs signāls par virzienu: vienots, holistisks, pieredzēts.
- gada decembris kļūst par pagrieziena punktu AI video. Runway arēnas uzvara, atvērtā koda sprādzieni no ByteDance un Tencent, un Kling ienākšana vienotā multimodālā telpā. Rīki attīstās ātrāk, nekā jebkurš prognozēja.
Ja jūs būvējat ar AI video, pievērsiet uzmanību Kling. Ne tāpēc, ka tas ir labākais visā šodien, bet tāpēc, ka tas pārstāv, uz kurieni viss dodas rīt.
AI video nākotne nav labāks video plus labāks audio. Tā ir vienota audiovizuālā inteliģence. Un šī nākotne tikko pienāca.
Avoti
- Kling O1 Launch Announcement (Yahoo Finance)
- Kling Video 2.6 with Audio-Visual Generation (PR Newswire)
- Kling O1 Unified Multimodal Model (PR Newswire)
- China Kuaishou Kling O1 Analysis (eWeek)
Vai šis raksts bija noderīgs?

Henry
Radošais TehnoloģistsRadošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.
Saistītie raksti
Turpiniet izpēti ar šiem saistītajiem rakstiem

Pika 2.5: Pieejams AI video caur ātrumu, cenu un rīkiem
Pika Labs izlaiž versiju 2.5 ar ātrāku ģenerēšanu, uzlabotu fiziku un rīkiem kā Pikaframes un Pikaffects darbam ar video.

Runway Gen-4.5 sasniedz 1. vietu: Kā 100 inženieri apdzina Google un OpenAI
Runway tikko ieguva pirmo vietu Video Arena ar Gen-4.5, pierādot, ka neliela komanda var pārspēt triljonu dolāru milžus AI video ģenerācijas jomā.

CraftStory Model 2.0: Kā divvirzienu difūzija atver 5 minūšu AI video
Kamēr Sora 2 maksimums ir 25 sekundes, CraftStory izlaida sistēmu, kas ģenerē saskaņotus 5 minūšu video. Noslēpums? Vairāki difūzijas dzinēji paralēli ar divvirzienu ierobežojumiem.