Meta Pixel
HenryHenry
6 min read
1158 vārdi

Klusās ēras beigas: kā natīvā audio ģenerācija mūžīgi pārveido AI video

AI video ģenerācija tikko attīstījās no klusajām filmām līdz skaņfilmām. Izziniet, kā natīvā audio-video sintēze pārveido radošos darba procesus ar sinhronizētu dialogu, apkārtnes skaņu ainavu un skaņas efektiem, kas ģenerēti kopā ar vizuālo saturu.

Klusās ēras beigas: kā natīvā audio ģenerācija mūžīgi pārveido AI video

Ready to create your own AI videos?

Join thousands of creators using Bonega.ai

Vai atceraties tos vecos Čārlija Čaplina (Charlie Chaplin) filmas? Pārspīlētās žestus, klavieru pavadījumu, starpkadriem ar tekstu? Pēdējos gados AI video ģenerācija ir bijusi iestrēgusi savā klusajā ērā. Mēs varējām radīt satriecošus vizuālus no teksta—pilsētas ainavas krēslā, dejojošas figūras, eksplodējošas galaktikas—taču tās norisinājās drausmīgā klusumā. Mēs uzlīmējām audio pēctam, cerot, ka soļi sinhronizējas, lūdzoties, lai lūpu kustības sakritīs.

Šī ēra tikko beidzās.

No postprodukcijas murga līdz natīvai sintēzei

Tehniskais lēciens šeit ir vērienīgs. Iepriekšējie darba procesi izskatījās aptuveni šādi:

  1. Ģenerē video no uzvednes
  2. Eksportē kadrus
  3. Atver audio programmatūru
  4. Atrod vai izveido skaņas efektus
  5. Manuāli sinhronizē visu
  6. Lūdz, lai tas neizskatās briesmīgi

Tagad? Modelis ģenerē audio un video kopā, vienā procesā. Ne kā atsevišķas plūsmas, kas tiek sašūtas kopā—bet kā vienotu datu, kas plūst caur vienu un to pašu latento telpu.

# Vecais veids: atsevišķa ģenerācija, manuāla sinhronizācija
video = generate_video(prompt)
audio = generate_audio_separately(prompt)
result = sync_audio_video(video, audio)  # Veiksmi!
 
# Jaunais veids: vienota ģenerācija
result = generate_audiovisual(prompt)  # Skaņa un attēls, dzimuši kopā

Google Veo 3 saspiež audio un video reprezentācijas kopīgā latentā telpā. Kad difūzijas process izvēršas, abas modalitātes parādās vienlaikus—dialogs, apkārtnes troksnis, skaņas efekti, visi temporāli saskaņoti pēc dizaina, nevis ar pēcfakta izlīdzināšanu.

Ko "natīvs" faktiski nozīmē

Ļaujiet man sadalīt, kas notiek zem kapota, jo šis atšķirība ir svarīga.

PieejaAudio avotsSinhronizācijas metodeKvalitāte
PēcfaktaAtsevišķs modelis/bibliotēkaManuāla vai algoritmiskaBieži nesaskaņota
Divu posmuĢenerēta pēc videoŠķērsmodāla uzmanībaLabāka, bet artefakti
Natīva sintēzeTā pati latentā telpaIebūvēta ģenerācijāDabiska sinhronizācija

Natīva sintēze nozīmē, ka modelis mācās attiecības starp vizuālajiem notikumiem un skaņām apmācības laikā. Aizvērtās durvis nav "durvju vizuāls + durvju skaņa"—tas ir vienots audiovizuāls notikums, ko modelis reprezentē holistiski.

Praktiskais rezultāts? Lūpu sinhronizācijas precizitāte zem 120 milisekundēm Veo 3, un Veo 3.1 to pazemina līdz aptuveni 10 milisekundēm. Tas ir labāk nekā lielākā daļa tīmekļkameru aiztures.

Radošās iespējas ir neprātīgas

Es esmu eksperimentējis ar šiem rīkiem satura izveidei, un iespējas šķiet patiesi jaunas. Šeit ir tas, kas pēkšņi ir kļuvis triviāls:

Apkārtnes skaņu ainavas: Ģenerē lietus ielas skatu, un tas nāk ar lietu, tālās satiksmes, atskaņojošiem soļiem. Modelis saprot, ka lietus uz metāla skan citādi nekā lietus uz bruģa.

Sinhronizēts dialogs: Ieraksti sarunu, saņem personāžus, kas runā ar saskaņotām lūpu kustībām. Ne perfekti—joprojām daži neizskaidrojamās ielejas brīži—bet esam pārlēkuši no "acīmredzami viltots" uz "dažreiz pārliecinošs".

Fiziskie skaņas efekti: Atsitoša bumba faktiski skan kā atsitoša bumba. Stikla šķembas skan kā stikls. Modelis ir iemācījies fizisko mijiedarbību akustiskās parakstus.

Uzvedne: "Barista tvaicē pienu rosīgā kafejnīcā, klienti tērzē,
        espresso mašīna šņāc, džezs spēlē klusi fonā"
 
Izeja: 8 sekundes pilnīgi sinhronizētas audiovizuālas pieredzes

Nav nepieciešams audio inženieris. Nav Foley mākslinieks. Nav miksēšanas sesija.

Pašreizējās spējas dažādos modeļos

Ainava virzās ātri, bet šeit ir, kur lietas atrodas:

Google Veo 3 / Veo 3.1

  • Natīva audio ģenerācija ar dialoga atbalstu
  • 1080p natīvā izšķirtspēja ar 24 fps
  • Spēcīgas apkārtnes skaņu ainavas
  • Integrēta Gemini ekosistēmā

OpenAI Sora 2

  • Sinhronizēta audio-video ģenerācija
  • Līdz 60 sekundēm ar audio sinhronizāciju (90 sekundes kopumā)
  • Uzņēmumu pieejamība caur Azure AI Foundry
  • Spēcīga fizikas-audio korelācija

Kuaishou Kling 2.1

  • Vairāku kadru konsekvence ar audio
  • Līdz 2 minūtēm ilgums
  • 45 miljoni+ veidotāju izmanto platformu

MiniMax Hailuo 02

  • Noise-Aware Compute Redistribution arhitektūra
  • Spēcīga instrukciju izpilde
  • Efektīva ģenerācijas pipeline

"Foley problēma" šķīst

Viens no maniem iecienītākajiem aspektiem par šo pārmaiņu ir skatīties, kā Foley problēma šķīst. Foley—ikdienas skaņas efektu radīšanas māksla—ir bijusi specializēta amatniecība gadsimtu. Ierakstīt soļus, salauzt kokosriekstus zirgu pakaviem, kratīt palagi vējam.

Tagad modelis vienkārši... zina. Ne caur noteikumiem vai bibliotēkām, bet caur mācītām statistiskām attiecībām starp vizuāliem notikumiem un to akustiskām parakstiem.

Vai tas aizstāj Foley māksliniekus? Augstākā līmeņa filmu producēšanai, varbūt vēl ne. YouTube video, sociālajam saturam, ātrām prototipiem? Absolūti. Kvalitātes standarts ir būtiski mainījies.

Tehniskie ierobežojumi joprojām pastāv

Būsim godīgi par to, kas vēl nedarbojas:

Sarežģītas mūzikas sekvences: Ģenerēt personāžu, kas spēlē klavieres ar pareizu pirkstu novietojumu un nošu precīzu audio? Joprojām lielākoties salauzts. Vizuālā-audio korelācija precīzai mūzikas izpildei ir ārkārtīgi grūta.

Ilgtermiņa konsekvence: Audio kvalitāte mēdz dreifēt garākās ģenerācijās. Fona ambients var mainīties nedabīgi aptuveni 15-20 sekunžu atzīmē dažos modeļos.

Runa trokšņainā vidē: Skaidra dialoga ģenerēšana akustiski sarežģītās vidēs joprojām rada artefaktus. Kokteiļu ballītes problēma paliek grūta.

Kultūras skaņas variācijas: Modeļi, kas galvenokārt apmācīti uz Rietumu satura, cīnās ar reģionālām akustiskām īpašībām. Reverberācijas paraksti, apkārtnes modeļi un kultūras skaņas marķieri nērietumnieciskās vidēs netiek uztverti tik efektīvi.

Ko tas nozīmē veidotājiem

Ja jūs veidat video saturu, jūsu darba process drīz mainīsies fundamentāli. Daži prognozes:

Ātras apgrozības saturs kļūst vēl ātrāks. Sociālo mediju video, kas iepriekš prasīja skaņas inženieri, var tikt ģenerēti no sākuma līdz beigām minūtēs.

Prototipēšana kļūst radikāli ātrāka. Piedāvāt koncepciju ar pilnībā realizētiem audiovizuāliem klipiem tā vietā, lai scenāriji un pagaidu mūzika.

Pieejamība uzlabojas. Veidotāji bez audio produkcijas prasmēm var producēt saturu ar profesionālas kvalitātes skaņas dizainu.

Prasmju prēmija pārslēdzas no izpildes uz ideāciju. Zināt, kas skan labi, ir svarīgāk nekā zināt, kā to likt skanēt labi.

Filozofiskā dīvainība

Šeit ir daļa, kas mani liek nomodā naktī: šie modeļi nekad nav "dzirdējuši" neko. Tie ir iemācījušies statistiskos modeļus starp vizuālajām reprezentācijām un audio viļņu formām. Tomēr tie rada skaņas, kas jūtas pareizas, kas atbilst mūsu cerībām par to, kā pasaulei vajadzētu skanēt.

Vai tas ir sapratne? Vai tas ir modeļu atpazīšana, kas ir pietiekami sarežģīta, lai būtu neatšķirama no sapratnes? Man nav atbilžu, bet es uzskatu, ka jautājums ir fascinējošs.

Modelis ģenerē skaņu, ko vīna glāze izdara, kad tā saplīst, jo tas ir iemācījies korelāciju no miljoniem piemēru—ne tāpēc, ka tas saprot stikla mehāniku vai akustisku fiziku. Tomēr rezultāts skan pareizi veidā, kas jūtas gandrīz neiespējami izskaidrot tikai caur statistiku.

Kurp mēs virzāmies

Trajektorija šķiet skaidra: garāki ilgumi, augstāka precizitāte, vairāk kontroles. Līdz 2026. gada vidum es sagaidu, ka redzēsim:

  • 5+ minūšu natīvo audio-video ģenerāciju
  • Reāllaikā ģenerāciju interaktīvām lietojumprogrammām
  • Smalkāku audio kontroli (pielāgot dialoga skaļumu, mūzikas stilu, apkārtnes līmeni atsevišķi)
  • Šķērsmodālu rediģēšanu (mainīt vizuālo, audio automātiski atjauninās)

Robeža starp iedomāto un materializēto kā pilnīgu audiovizuālu saturu samazinās. Veidotājiem tas ir vai nu aizraujoši vai biedējoši—varbūt abi.

Izmēģiniet pats

Labākais veids, kā saprast šo pārmaiņu, ir to piedzīvot. Lielākā daļa modeļu piedāvā bezmaksas līmeņus vai izmēģinājumus:

  1. Google AI Studio: Piekļūstiet Veo 3 spējām caur Gemini
  2. Sora ChatGPT: Pieejams Plus un Pro abonentiem
  3. Kling: Tīmekļa piekļuve to platformā
  4. Runway Gen-4: API un tīmekļa saskarne pieejama

Sāciet vienkārši. Ģenerējiet 4 sekunžu klipu par kaut ko ar acīmredzamu audio—atsitošu bumbu, lietus uz loga, kādu, kas plauksķina. Ievērojiet, kā skaņa atbilst vizuālajam bez jebkādas iejaukšanās no jums.

Tad izmēģiniet kaut ko sarežģītu. Pārpildītu tirgu. Pietuvojošos pērkona negaisu. Sarunu starp divām personām.

Jūs jutīsiet brīdi, kad tas noklikšķinās—kad sapratīsiet, ka mēs vairs neģenerējam tikai video. Mēs ģenerējam pieredzes.

Klusā ēra ir beigusies. Skaņfilmas ir klāt.

Vai šis raksts bija noderīgs?

Henry

Henry

Radošais Tehnoloģists

Radošais tehnoloģists no Lozannas, kurš pēta, kur MI satiekas ar mākslu. Eksperimentē ar ģeneratīviem modeļiem starp elektroniskās mūzikas sesijām.

Like what you read?

Turn your ideas into unlimited-length AI videos in minutes.

Saistītie raksti

Turpiniet izpēti ar šiem saistītajiem rakstiem

Vai jums patika šis raksts?

Atklājiet vairāk ieskatu un sekojiet līdzi mūsu jaunākajam saturam.

Klusās ēras beigas: kā natīvā audio ģenerācija mūžīgi pārveido AI video