Klusās ēras beigas: kā natīvā audio ģenerācija mūžīgi pārveido AI video

Vai atceraties tos vecos Čārlija Čaplina (Charlie Chaplin) filmas? Pārspīlētās žestus, klavieru pavadījumu, starpkadriem ar tekstu? Pēdējos gados AI video ģenerācija ir bijusi iestrēgusi savā klusajā ērā. Mēs varējām radīt satriecošus vizuālus no teksta—pilsētas ainavas krēslā, dejojošas figūras, eksplodējošas galaktikas—taču tās norisinājās drausmīgā klusumā. Mēs uzlīmējām audio pēctam, cerot, ka soļi sinhronizējas, lūdzoties, lai lūpu kustības sakritīs.

Šī ēra tikko beidzās.

No postprodukcijas murga līdz natīvai sintēzei

Tehniskais lēciens šeit ir vērienīgs. Iepriekšējie darba procesi izskatījās aptuveni šādi:

Ģenerē video no uzvednes
Eksportē kadrus
Atver audio programmatūru
Atrod vai izveido skaņas efektus
Manuāli sinhronizē visu
Lūdz, lai tas neizskatās briesmīgi

Tagad? Modelis ģenerē audio un video kopā, vienā procesā. Ne kā atsevišķas plūsmas, kas tiek sašūtas kopā—bet kā vienotu datu, kas plūst caur vienu un to pašu latento telpu.

# Vecais veids: atsevišķa ģenerācija, manuāla sinhronizācija
video = generate_video(prompt)
audio = generate_audio_separately(prompt)
result = sync_audio_video(video, audio)  # Veiksmi!
 
# Jaunais veids: vienota ģenerācija
result = generate_audiovisual(prompt)  # Skaņa un attēls, dzimuši kopā

Google Veo 3 saspiež audio un video reprezentācijas kopīgā latentā telpā. Kad difūzijas process izvēršas, abas modalitātes parādās vienlaikus—dialogs, apkārtnes troksnis, skaņas efekti, visi temporāli saskaņoti pēc dizaina, nevis ar pēcfakta izlīdzināšanu.

Ko "natīvs" faktiski nozīmē

Ļaujiet man sadalīt, kas notiek zem kapota, jo šis atšķirība ir svarīga.

Pieeja	Audio avots	Sinhronizācijas metode	Kvalitāte
Pēcfakta	Atsevišķs modelis/bibliotēka	Manuāla vai algoritmiska	Bieži nesaskaņota
Divu posmu	Ģenerēta pēc video	Šķērsmodāla uzmanība	Labāka, bet artefakti
Natīva sintēze	Tā pati latentā telpa	Iebūvēta ģenerācijā	Dabiska sinhronizācija

Natīva sintēze nozīmē, ka modelis mācās attiecības starp vizuālajiem notikumiem un skaņām apmācības laikā. Aizvērtās durvis nav "durvju vizuāls + durvju skaņa"—tas ir vienots audiovizuāls notikums, ko modelis reprezentē holistiski.

Praktiskais rezultāts? Lūpu sinhronizācijas precizitāte zem 120 milisekundēm Veo 3, un Veo 3.1 to pazemina līdz aptuveni 10 milisekundēm. Tas ir labāk nekā lielākā daļa tīmekļkameru aiztures.

Radošās iespējas ir neprātīgas

Es esmu eksperimentējis ar šiem rīkiem satura izveidei, un iespējas šķiet patiesi jaunas. Šeit ir tas, kas pēkšņi ir kļuvis triviāls:

Apkārtnes skaņu ainavas: Ģenerē lietus ielas skatu, un tas nāk ar lietu, tālās satiksmes, atskaņojošiem soļiem. Modelis saprot, ka lietus uz metāla skan citādi nekā lietus uz bruģa.

Sinhronizēts dialogs: Ieraksti sarunu, saņem personāžus, kas runā ar saskaņotām lūpu kustībām. Ne perfekti—joprojām daži neizskaidrojamās ielejas brīži—bet esam pārlēkuši no "acīmredzami viltots" uz "dažreiz pārliecinošs".

Fiziskie skaņas efekti: Atsitoša bumba faktiski skan kā atsitoša bumba. Stikla šķembas skan kā stikls. Modelis ir iemācījies fizisko mijiedarbību akustiskās parakstus.

Uzvedne: "Barista tvaicē pienu rosīgā kafejnīcā, klienti tērzē,
        espresso mašīna šņāc, džezs spēlē klusi fonā"
 
Izeja: 8 sekundes pilnīgi sinhronizētas audiovizuālas pieredzes

Nav nepieciešams audio inženieris. Nav Foley mākslinieks. Nav miksēšanas sesija.

Pašreizējās spējas dažādos modeļos

Ainava virzās ātri, bet šeit ir, kur lietas atrodas:

Google Veo 3 / Veo 3.1

Natīva audio ģenerācija ar dialoga atbalstu
1080p natīvā izšķirtspēja ar 24 fps
Spēcīgas apkārtnes skaņu ainavas
Integrēta Gemini ekosistēmā

OpenAI Sora 2

Sinhronizēta audio-video ģenerācija
Līdz 60 sekundēm ar audio sinhronizāciju (90 sekundes kopumā)
Uzņēmumu pieejamība caur Azure AI Foundry
Spēcīga fizikas-audio korelācija

Kuaishou Kling 2.1

Vairāku kadru konsekvence ar audio
Līdz 2 minūtēm ilgums
45 miljoni+ veidotāju izmanto platformu

MiniMax Hailuo 02

Noise-Aware Compute Redistribution arhitektūra
Spēcīga instrukciju izpilde
Efektīva ģenerācijas pipeline

"Foley problēma" šķīst

Viens no maniem iecienītākajiem aspektiem par šo pārmaiņu ir skatīties, kā Foley problēma šķīst. Foley—ikdienas skaņas efektu radīšanas māksla—ir bijusi specializēta amatniecība gadsimtu. Ierakstīt soļus, salauzt kokosriekstus zirgu pakaviem, kratīt palagi vējam.

Tagad modelis vienkārši... zina. Ne caur noteikumiem vai bibliotēkām, bet caur mācītām statistiskām attiecībām starp vizuāliem notikumiem un to akustiskām parakstiem.

Vai tas aizstāj Foley māksliniekus? Augstākā līmeņa filmu producēšanai, varbūt vēl ne. YouTube video, sociālajam saturam, ātrām prototipiem? Absolūti. Kvalitātes standarts ir būtiski mainījies.

Tehniskie ierobežojumi joprojām pastāv

Būsim godīgi par to, kas vēl nedarbojas:

Sarežģītas mūzikas sekvences: Ģenerēt personāžu, kas spēlē klavieres ar pareizu pirkstu novietojumu un nošu precīzu audio? Joprojām lielākoties salauzts. Vizuālā-audio korelācija precīzai mūzikas izpildei ir ārkārtīgi grūta.

Ilgtermiņa konsekvence: Audio kvalitāte mēdz dreifēt garākās ģenerācijās. Fona ambients var mainīties nedabīgi aptuveni 15-20 sekunžu atzīmē dažos modeļos.

Runa trokšņainā vidē: Skaidra dialoga ģenerēšana akustiski sarežģītās vidēs joprojām rada artefaktus. Kokteiļu ballītes problēma paliek grūta.

Kultūras skaņas variācijas: Modeļi, kas galvenokārt apmācīti uz Rietumu satura, cīnās ar reģionālām akustiskām īpašībām. Reverberācijas paraksti, apkārtnes modeļi un kultūras skaņas marķieri nērietumnieciskās vidēs netiek uztverti tik efektīvi.

Ko tas nozīmē veidotājiem

Ja jūs veidat video saturu, jūsu darba process drīz mainīsies fundamentāli. Daži prognozes:

Ātras apgrozības saturs kļūst vēl ātrāks. Sociālo mediju video, kas iepriekš prasīja skaņas inženieri, var tikt ģenerēti no sākuma līdz beigām minūtēs.

Prototipēšana kļūst radikāli ātrāka. Piedāvāt koncepciju ar pilnībā realizētiem audiovizuāliem klipiem tā vietā, lai scenāriji un pagaidu mūzika.

Pieejamība uzlabojas. Veidotāji bez audio produkcijas prasmēm var producēt saturu ar profesionālas kvalitātes skaņas dizainu.

Prasmju prēmija pārslēdzas no izpildes uz ideāciju. Zināt, kas skan labi, ir svarīgāk nekā zināt, kā to likt skanēt labi.

Filozofiskā dīvainība

Šeit ir daļa, kas mani liek nomodā naktī: šie modeļi nekad nav "dzirdējuši" neko. Tie ir iemācījušies statistiskos modeļus starp vizuālajām reprezentācijām un audio viļņu formām. Tomēr tie rada skaņas, kas jūtas pareizas, kas atbilst mūsu cerībām par to, kā pasaulei vajadzētu skanēt.

Vai tas ir sapratne? Vai tas ir modeļu atpazīšana, kas ir pietiekami sarežģīta, lai būtu neatšķirama no sapratnes? Man nav atbilžu, bet es uzskatu, ka jautājums ir fascinējošs.

Modelis ģenerē skaņu, ko vīna glāze izdara, kad tā saplīst, jo tas ir iemācījies korelāciju no miljoniem piemēru—ne tāpēc, ka tas saprot stikla mehāniku vai akustisku fiziku. Tomēr rezultāts skan pareizi veidā, kas jūtas gandrīz neiespējami izskaidrot tikai caur statistiku.

Kurp mēs virzāmies

Trajektorija šķiet skaidra: garāki ilgumi, augstāka precizitāte, vairāk kontroles. Līdz 2026. gada vidum es sagaidu, ka redzēsim:

5+ minūšu natīvo audio-video ģenerāciju
Reāllaikā ģenerāciju interaktīvām lietojumprogrammām
Smalkāku audio kontroli (pielāgot dialoga skaļumu, mūzikas stilu, apkārtnes līmeni atsevišķi)
Šķērsmodālu rediģēšanu (mainīt vizuālo, audio automātiski atjauninās)

Robeža starp iedomāto un materializēto kā pilnīgu audiovizuālu saturu samazinās. Veidotājiem tas ir vai nu aizraujoši vai biedējoši—varbūt abi.

Izmēģiniet pats

Labākais veids, kā saprast šo pārmaiņu, ir to piedzīvot. Lielākā daļa modeļu piedāvā bezmaksas līmeņus vai izmēģinājumus:

Google AI Studio: Piekļūstiet Veo 3 spējām caur Gemini
Sora ChatGPT: Pieejams Plus un Pro abonentiem
Kling: Tīmekļa piekļuve to platformā
Runway Gen-4: API un tīmekļa saskarne pieejama

Sāciet vienkārši. Ģenerējiet 4 sekunžu klipu par kaut ko ar acīmredzamu audio—atsitošu bumbu, lietus uz loga, kādu, kas plauksķina. Ievērojiet, kā skaņa atbilst vizuālajam bez jebkādas iejaukšanās no jums.

Tad izmēģiniet kaut ko sarežģītu. Pārpildītu tirgu. Pietuvojošos pērkona negaisu. Sarunu starp divām personām.

Jūs jutīsiet brīdi, kad tas noklikšķinās—kad sapratīsiet, ka mēs vairs neģenerējam tikai video. Mēs ģenerējam pieredzes.

Klusā ēra ir beigusies. Skaņfilmas ir klāt.

Klusās ēras beigas: kā natīvā audio ģenerācija mūžīgi pārveido AI video

No postprodukcijas murga līdz natīvai sintēzei

Ko "natīvs" faktiski nozīmē

Radošās iespējas ir neprātīgas

Pašreizējās spējas dažādos modeļos

"Foley problēma" šķīst

Tehniskie ierobežojumi joprojām pastāv

Ko tas nozīmē veidotājiem

Filozofiskā dīvainība

Kurp mēs virzāmies

Izmēģiniet pats

Henry

Like what you read?

Saistītie raksti

Pika 2.5: Pieejams AI video caur ātrumu, cenu un rīkiem

Adobe un Runway apvieno spēkus: Ko Gen-4.5 partnerība nozīmē video veidotājiem

Disnejs Liek 1 Miljardu ASV Dolāru uz OpenAI: Ko nozīmē Sora 2 Līgums AI Video Veidotājiem

Vai jums patika šis raksts?