Kling O1: Kuaishou se pridružuje utrci za ujedinjenima multimodalnim video modelima

Dok su svi gledali Runway kako slavi pobjedu u Video Areni, Kuaishou je tiho objavio nešto značajno. Kling O1 nije samo još jedan video model. Predstavlja novi val ujedinjenih multimodalnih arhitektura koje obrađuju video, zvuk i tekst kao jedan kognitivni sustav.

Zašto je ovo drugačije

Pokrivam AI video već godinama. Vidjeli smo modele koji generiraju video iz teksta. Modele koji dodaju zvuk naknadno. Modele koji sinkroniziraju zvuk s postojećim videom. Ali Kling O1 radi nešto fundamentalno novo: misli u svim modalitetima odjednom.

💡

Ujedinjena multimodalnost znači da model nema odvojene module za "razumijevanje videa" i "generiranje zvuka" koji su spojeni zajedno. Ima jednu arhitekturu koja obrađuje audiovizualnu stvarnost kao što to čine ljudi: kao integriranu cjelinu.

Razlika je suptilna, ali ogromna. Prethodni modeli radili su kao filmska ekipa: redatelj za vizualne efekte, tonski dizajner za zvuk, montažer za sinkronizaciju. Kling O1 radi kao jedan mozak koji doživljava svijet.

Tehnološki skok

Architecture Generation

2.6

Consumer Version

Dec 2025

Release Date

Evo što čini Kling O1 drugačijim na arhitekturnoj razini:

Prethodni pristup (multi-model)

Tekstualni enkoder obrađuje prompt
Video model generira kadrove
Audio model generira zvuk
Sinkronizacijski model usklađuje izlaze
Rezultati često djeluju nepovezano

Kling O1 (ujedinjeni)

Jedan enkoder za sve modalitete
Zajednički latentni prostor za audio-video
Istovremeno generiranje
Inherentna sinkronizacija
Rezultati djeluju prirodno koherentno

Praktični rezultat? Kada Kling O1 generira video kiše na prozoru, ne generira vizualne efekte kiše i onda shvaća kako kiša zvuči. Generira doživljaj kiše na prozoru, zvuk i slika nastaju zajedno.

Kling Video 2.6: potrošačka verzija

Uz O1, Kuaishou je objavio Kling Video 2.6 s istovremenim audio-vizualnim generiranjem. Ovo je pristupačna verzija ujedinjenog pristupa:

🎬

Generiranje u jednom prolazu

Video i zvuk generiraju se u jednom procesu. Bez post-sinkronizacije, bez ručnog poravnavanja. Što promptaš, to dobiješ, kompletno.

🎤

Puni audio spektar

Dijalozi, glasovni komentari, zvučni efekti, ambijentalna atmosfera. Sve generirano nativno, sve sinkronizirano s vizualnim sadržajem.

⚡

Revolucija radnog procesa

Tradicionalni pipeline video-pa-zvuk nestaje. Generiraj potpuni audiovizualni sadržaj iz jednog prompta.

🎯

Profesionalna kontrola

Unatoč ujedinjenom generiranju, još uvijek imaš kontrolu nad elementima. Prilagodi raspoloženje, tempo i stil kroz promptanje.

Implikacije u stvarnom svijetu

Dopustite mi da nacrtam sliku onoga što ovo omogućava:

Stari radni proces (5+ sati):

Napiši skriptu i storyboard
Generiraj video klipove (30 min)
Pregled i regeneriranje problematičnih klipova (1 sat)
Generiraj zvuk odvojeno (30 min)
Otvori audio editor
Ručna sinkronizacija zvuka s videom (2+ sata)
Popravi probleme sa sinkronizacijom, ponovno renderiranje (1 sat)
Izvezi finalnu verziju

Kling O1 radni proces (30 min):

Napiši prompt koji opisuje audiovizualnu scenu
Generiraj kompletan klip
Pregled i iteracija ako je potrebno
Izvezi

To nije inkrementalno poboljšanje. To je kategorička promjena u tome što "AI generiranje videa" znači.

Kako se uspoređuje

Prostor AI videa postao je pretrpan. Evo gdje Kling O1 stoji:

✓Prednosti Kling O1

Prava ujedinjena multimodalna arhitektura
Nativno audio-vizualno generiranje
Snažno razumijevanje pokreta
Konkurentna vizualna kvaliteta
Bez artefakata sinkronizacije po dizajnu

✗Kompromisi

Noviji model, još uvijek sazrijeva
Manje ekosistemskih alata od Runwaya
Dokumentacija primarno na kineskom
API pristup još se razvija globalno

U odnosu na trenutni krajolik:

Model	Vizualna kvaliteta	Audio	Ujedinjena arhitektura	Pristup
Runway Gen-4.5	#1 na Areni	Post-dodavanje	Ne	Globalno
Sora 2	Snažno	Nativno	Da	Ograničeno
Veo 3	Snažno	Nativno	Da	API
Kling O1	Snažno	Nativno	Da	Razvija se

Krajolik se promijenio: ujedinjene audio-vizualne arhitekture postaju standard za vrhunske modele. Runway ostaje outlier s odvojenim audio workflow-ima.

Kineski AI video push

💡

Kuaishouov Kling dio je šireg uzorka. Kineske tehnološke kompanije isporučuju impresivne video modele nevjerojatnom brzinom.

Samo u posljednja dva tjedna:

ByteDance Vidi2: 12B parametarski open-source model
Tencent HunyuanVideo-1.5: prijateljski prema potrošačkim GPU-ima (14GB VRAM)
Kuaishou Kling O1: prvi ujedinjeni multimodalni
Kuaishou Kling 2.6: produkcijski spreman audio-vizualni

Za više o open-source strani ovog pusha, vidi Open-Source AI Video revolucija.

Ovo nije slučajnost. Ove kompanije se suočavaju s ograničenjima izvoza čipova i ograničenjima cloud usluga iz SAD-a. Njihov odgovor? Grade drugačije, objavljuju otvoreno, konkuriraju se inovacijama arhitekture umjesto čistim računanjem.

Što to znači za kreatore

Ako stvaraš video sadržaj, evo mog ažuriranog razmišljanja:

✓Brzi društveni sadržaj: ujedinjeno generiranje Kling 2.6 je savršeno
✓Maksimalna vizualna kvaliteta: Runway Gen-4.5 još vodi
✓Audio-first projekti: Kling O1 ili Sora 2
✓Lokalno/privatno generiranje: open-source (HunyuanVideo, Vidi2)

Odgovor na pitanje "pravi alat" upravo je postao kompliciraniji. Ali to je dobro. Konkurencija znači opcije, a opcije znače da možeš uskladiti alat sa zadatkom umjesto kompromisa.

Šira slika

⚠️

Svjedočimo prijelazu s "AI generiranja videa" na "AI generiranje audiovizualnog doživljaja". Kling O1 se pridružuje Sori 2 i Veu 3 kao modeli izgradeni za destinaciju umjesto iteriranja iz početne točke.

Analogija kojoj se nastavljam vraćati: rani pametni telefoni bili su telefoni s dodanim aplikacijama. iPhone je bio računalo koje je moglo telefonirati. Iste mogućnosti na papiru, fundamentalno drugačiji pristup.

Kling O1, poput Sore 2 i Vea 3, izgrađen je od temelja kao audiovizualni sustav. Raniji modeli bili su video sustavi sa dodanim zvukom. Ujedinjeni pristup tretira zvuk i vid kao neodvojive aspekte jedne stvarnosti.

Isprobaj sam

Kling je dostupan preko njihove web platforme, s API pristupom koji se širi. Ako želiš iskusiti kako se osjeća ujedinjeno multimodalno generiranje:

Počni s nečim jednostavnim: odbijajuća lopta, kiša na prozoru
Primijeti kako zvuk pripada vizualnom
Pokušaj nešto složeno: razgovor, prometna ulična scena
Osjeti razliku od post-sinkroniziranog zvuka

Tehnologija je mlada. Neki promptovi će razočarati. Ali kada radi, osjetit ćeš pomak. Ovo nije video plus zvuk. Ovo je generiranje doživljaja.

Što dolazi sljedeće

Implikacije se protežu dalje od stvaranja videa:

Kratkoročno (2026):

Duža ujedinjena generiranja
Interaktivni AV u realnom vremenu
Proširenje fino granularne kontrole
Više modela usvaja ujedinjenu arhitekturu

Srednjoročno (2027+):

Puno razumijevanje scene
Interaktivna AV iskustva
Alati za virtualnu produkciju
Potpuno novi kreativni mediji

Jaz između zamišljanja doživljaja i stvaranja ga nastavlja se smanjivati. Kling O1 nije konačni odgovor, ali je jasan signal smjera: ujedinjen, holistički, iskustven.

Prosinac 2025. postaje ključan mjesec za AI video. Runway-eva pobjeda u areni, open-source eksplozije od ByteDancea i Tencenta, i Klingov ulazak u ujedinjeni multimodalni prostor. Alati se razvijaju brže nego što je itko predvidio.

Ako gradiš s AI videom, obrati pozornost na Kling. Ne zato što je najbolji u svemu danas, već zato što predstavlja kamo sve ide sutra.

Budućnost AI videa nije bolji video plus bolji zvuk. To je ujedinjena audiovizualna inteligencija. I ta budućnost je upravo stigla.