Kling O1: Kuaishou se pridružuje utrci za ujedinjenima multimodalnim video modelima
Kuaishou je upravo pokrenuo Kling O1, ujedinjena multimodalna AI koja misli u videu, zvuku i tekstu istovremeno. Utrka za audiovizualnom inteligencijom se grije.

Dok su svi gledali Runway kako slavi pobjedu u Video Areni, Kuaishou je tiho objavio nešto značajno. Kling O1 nije samo još jedan video model. Predstavlja novi val ujedinjenih multimodalnih arhitektura koje obrađuju video, zvuk i tekst kao jedan kognitivni sustav.
Zašto je ovo drugačije
Pokrivam AI video već godinama. Vidjeli smo modele koji generiraju video iz teksta. Modele koji dodaju zvuk naknadno. Modele koji sinkroniziraju zvuk s postojećim videom. Ali Kling O1 radi nešto fundamentalno novo: misli u svim modalitetima odjednom.
Ujedinjena multimodalnost znači da model nema odvojene module za "razumijevanje videa" i "generiranje zvuka" koji su spojeni zajedno. Ima jednu arhitekturu koja obrađuje audiovizualnu stvarnost kao što to čine ljudi: kao integriranu cjelinu.
Razlika je suptilna, ali ogromna. Prethodni modeli radili su kao filmska ekipa: redatelj za vizualne efekte, tonski dizajner za zvuk, montažer za sinkronizaciju. Kling O1 radi kao jedan mozak koji doživljava svijet.
Tehnološki skok
Evo što čini Kling O1 drugačijim na arhitekturnoj razini:
Prethodni pristup (multi-model)
- Tekstualni enkoder obrađuje prompt
- Video model generira kadrove
- Audio model generira zvuk
- Sinkronizacijski model usklađuje izlaze
- Rezultati često djeluju nepovezano
Kling O1 (ujedinjeni)
- Jedan enkoder za sve modalitete
- Zajednički latentni prostor za audio-video
- Istovremeno generiranje
- Inherentna sinkronizacija
- Rezultati djeluju prirodno koherentno
Praktični rezultat? Kada Kling O1 generira video kiše na prozoru, ne generira vizualne efekte kiše i onda shvaća kako kiša zvuči. Generira doživljaj kiše na prozoru, zvuk i slika nastaju zajedno.
Kling Video 2.6: potrošačka verzija
Uz O1, Kuaishou je objavio Kling Video 2.6 s istovremenim audio-vizualnim generiranjem. Ovo je pristupačna verzija ujedinjenog pristupa:
Generiranje u jednom prolazu
Video i zvuk generiraju se u jednom procesu. Bez post-sinkronizacije, bez ručnog poravnavanja. Što promptaš, to dobiješ, kompletno.
Puni audio spektar
Dijalozi, glasovni komentari, zvučni efekti, ambijentalna atmosfera. Sve generirano nativno, sve sinkronizirano s vizualnim sadržajem.
Revolucija radnog procesa
Tradicionalni pipeline video-pa-zvuk nestaje. Generiraj potpuni audiovizualni sadržaj iz jednog prompta.
Profesionalna kontrola
Unatoč ujedinjenom generiranju, još uvijek imaš kontrolu nad elementima. Prilagodi raspoloženje, tempo i stil kroz promptanje.
Implikacije u stvarnom svijetu
Dopustite mi da nacrtam sliku onoga što ovo omogućava:
Stari radni proces (5+ sati):
- Napiši skriptu i storyboard
- Generiraj video klipove (30 min)
- Pregled i regeneriranje problematičnih klipova (1 sat)
- Generiraj zvuk odvojeno (30 min)
- Otvori audio editor
- Ručna sinkronizacija zvuka s videom (2+ sata)
- Popravi probleme sa sinkronizacijom, ponovno renderiranje (1 sat)
- Izvezi finalnu verziju
Kling O1 radni proces (30 min):
- Napiši prompt koji opisuje audiovizualnu scenu
- Generiraj kompletan klip
- Pregled i iteracija ako je potrebno
- Izvezi
To nije inkrementalno poboljšanje. To je kategorička promjena u tome što "AI generiranje videa" znači.
Kako se uspoređuje
Prostor AI videa postao je pretrpan. Evo gdje Kling O1 stoji:
- Prava ujedinjena multimodalna arhitektura
- Nativno audio-vizualno generiranje
- Snažno razumijevanje pokreta
- Konkurentna vizualna kvaliteta
- Bez artefakata sinkronizacije po dizajnu
- Noviji model, još uvijek sazrijeva
- Manje ekosistemskih alata od Runwaya
- Dokumentacija primarno na kineskom
- API pristup još se razvija globalno
U odnosu na trenutni krajolik:
| Model | Vizualna kvaliteta | Audio | Ujedinjena arhitektura | Pristup |
|---|---|---|---|---|
| Runway Gen-4.5 | #1 na Areni | Post-dodavanje | Ne | Globalno |
| Sora 2 | Snažno | Nativno | Da | Ograničeno |
| Veo 3 | Snažno | Nativno | Da | API |
| Kling O1 | Snažno | Nativno | Da | Razvija se |
Krajolik se promijenio: ujedinjene audio-vizualne arhitekture postaju standard za vrhunske modele. Runway ostaje outlier s odvojenim audio workflow-ima.
Kineski AI video push
Kuaishouov Kling dio je šireg uzorka. Kineske tehnološke kompanije isporučuju impresivne video modele nevjerojatnom brzinom.
Samo u posljednja dva tjedna:
- ByteDance Vidi2: 12B parametarski open-source model
- Tencent HunyuanVideo-1.5: prijateljski prema potrošačkim GPU-ima (14GB VRAM)
- Kuaishou Kling O1: prvi ujedinjeni multimodalni
- Kuaishou Kling 2.6: produkcijski spreman audio-vizualni
Za više o open-source strani ovog pusha, vidi Open-Source AI Video revolucija.
Ovo nije slučajnost. Ove kompanije se suočavaju s ograničenjima izvoza čipova i ograničenjima cloud usluga iz SAD-a. Njihov odgovor? Grade drugačije, objavljuju otvoreno, konkuriraju se inovacijama arhitekture umjesto čistim računanjem.
Što to znači za kreatore
Ako stvaraš video sadržaj, evo mog ažuriranog razmišljanja:
- ✓Brzi društveni sadržaj: ujedinjeno generiranje Kling 2.6 je savršeno
- ✓Maksimalna vizualna kvaliteta: Runway Gen-4.5 još vodi
- ✓Audio-first projekti: Kling O1 ili Sora 2
- ✓Lokalno/privatno generiranje: open-source (HunyuanVideo, Vidi2)
Odgovor na pitanje "pravi alat" upravo je postao kompliciraniji. Ali to je dobro. Konkurencija znači opcije, a opcije znače da možeš uskladiti alat sa zadatkom umjesto kompromisa.
Šira slika
Svjedočimo prijelazu s "AI generiranja videa" na "AI generiranje audiovizualnog doživljaja". Kling O1 se pridružuje Sori 2 i Veu 3 kao modeli izgradeni za destinaciju umjesto iteriranja iz početne točke.
Analogija kojoj se nastavljam vraćati: rani pametni telefoni bili su telefoni s dodanim aplikacijama. iPhone je bio računalo koje je moglo telefonirati. Iste mogućnosti na papiru, fundamentalno drugačiji pristup.
Kling O1, poput Sore 2 i Vea 3, izgrađen je od temelja kao audiovizualni sustav. Raniji modeli bili su video sustavi sa dodanim zvukom. Ujedinjeni pristup tretira zvuk i vid kao neodvojive aspekte jedne stvarnosti.
Isprobaj sam
Kling je dostupan preko njihove web platforme, s API pristupom koji se širi. Ako želiš iskusiti kako se osjeća ujedinjeno multimodalno generiranje:
- Počni s nečim jednostavnim: odbijajuća lopta, kiša na prozoru
- Primijeti kako zvuk pripada vizualnom
- Pokušaj nešto složeno: razgovor, prometna ulična scena
- Osjeti razliku od post-sinkroniziranog zvuka
Tehnologija je mlada. Neki promptovi će razočarati. Ali kada radi, osjetit ćeš pomak. Ovo nije video plus zvuk. Ovo je generiranje doživljaja.
Što dolazi sljedeće
Implikacije se protežu dalje od stvaranja videa:
Kratkoročno (2026):
- Duža ujedinjena generiranja
- Interaktivni AV u realnom vremenu
- Proširenje fino granularne kontrole
- Više modela usvaja ujedinjenu arhitekturu
Srednjoročno (2027+):
- Puno razumijevanje scene
- Interaktivna AV iskustva
- Alati za virtualnu produkciju
- Potpuno novi kreativni mediji
Jaz između zamišljanja doživljaja i stvaranja ga nastavlja se smanjivati. Kling O1 nije konačni odgovor, ali je jasan signal smjera: ujedinjen, holistički, iskustven.
Prosinac 2025. postaje ključan mjesec za AI video. Runway-eva pobjeda u areni, open-source eksplozije od ByteDancea i Tencenta, i Klingov ulazak u ujedinjeni multimodalni prostor. Alati se razvijaju brže nego što je itko predvidio.
Ako gradiš s AI videom, obrati pozornost na Kling. Ne zato što je najbolji u svemu danas, već zato što predstavlja kamo sve ide sutra.
Budućnost AI videa nije bolji video plus bolji zvuk. To je ujedinjena audiovizualna inteligencija. I ta budućnost je upravo stigla.
Izvori
- Kling O1 Launch Announcement (Yahoo Finance)
- Kling Video 2.6 with Audio-Visual Generation (PR Newswire)
- Kling O1 Unified Multimodal Model (PR Newswire)
- China Kuaishou Kling O1 Analysis (eWeek)
Je li vam ovaj članak bio koristan?

Henry
Kreativni TehnologKreativni tehnolog iz Lausannea koji istražuje gdje se AI susreće s umjetnošću. Eksperimentira s generativnim modelima između sesija elektronske glazbe.
Povezani članci
Nastavite istraživati s ovim povezanim objavama

Pika 2.5: Dostupan AI video kroz brzinu, cijenu i alate
Pika Labs izdaje verziju 2.5 s bržom generacijom, poboljšanom fizikom i alatima kao što su Pikaframes i Pikaffects za rad s videom.

Potpuni vodič za AI video prompt engineering u 2025.
Ovladajte vještinom kreiranja promptova koji stvaraju zapanjujuće AI-generirane videozapise. Naučite framework od šest slojeva, kinematografsku terminologiju i tehnike specifične za pojedine platforme.

Runway Gen-4.5 na #1: Kako je 100 inženjera prestiglo Google i OpenAI
Runway je upravo zauzeo prvo mjesto na Video Arena s Gen-4.5, dokazujući da mali tim može nadmašiti gigante vrijedne trilijun dolara u generiranju AI videa.