Meta Pixel
DamienDamien
6 min read
1095 paraules

El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA

Durant anys, la generació de vídeo amb IA va crear imatges en moviment mudes que requerien llargues postproducions d'àudio. El 2025, la generació d'àudio natiu finalment unifica so i visió en una única passada de model. Explorem com funcionen Sora 2, Veo 3 i Kling O1, i què significa això per als creadors.

El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA

Recordes l'era del cinema mut? Durant dècades, el públic veia actors moure's sense sentir-ne les veus. Després va arribar El cantant de jazz el 1927, i tot va canviar. Estem vivint aquest moment per a la generació de vídeo amb IA ara mateix.

L'era del vídeo IA silenciós (2023-2025)

💡Context històric

Des dels primers models de text-a-vídeo fins a principis de 2025, la generació de vídeo amb IA significava crear pel·lícules mudes que necessitaven un treball de postproducció àudio extens.

El flux de treball era consistent en totes les eines:

  1. Generar vídeo silenciós a partir del prompt
  2. Exportar a l'editor d'àudio
  3. Generar o cercar efectes de so per separat
  4. Sincronitzar manualment àudio amb elements visuals
  5. Ajustar el timing per centenars de cops
  6. Renderitzar el compost final

Aquest flux de treball podia trigar més temps que la producció de vídeo tradicional. Generaves un clip de 10 segons en minuts, després passaves hores fent que el so coincidís.

El salt del 2025: generació audiovisual unificada

3
Models principals amb àudio natiu
≤120ms
Precisió de sincronització
1
Passada de generació

La innovació tècnica és elegant: en lloc de tractar l'àudio com una reflexió posterior, els models moderns generen vídeo i àudio junts en un procés de difusió unificat. El model aprèn la correlació entre patrons visuals i signatures sonores durant l'entrenament.

# Generació antiga: pipelines separats
video = video_model.generate(prompt)  # Sortida silenciosa
audio = audio_model.generate(prompt)  # Generació separada
final = manually_sync(video, audio)    # Alineació dolorosa
 
# Generació nova: difusió unificada
audiovisual = unified_model.generate(prompt)  # Tot junt
# L'àudio està inherentment sincronitzat amb el contingut visual

Com ho fa cada model

Sora 2 d'OpenAI

El llançament de Sora 2 el setembre de 2025 va marcar l'entrada d'OpenAI a l'àudio natiu. L'arquitectura comprimeix tant l'àudio com el vídeo en un espai latent compartit, després genera ambdues modalitats simultàniament a través d'un procés de difusió.

🎵

Capacitats de so

Sora 2 genera diàleg sincronitzat amb els llavis, so ambient, efectes sincronitzats amb accions i música de fons. El model entén que les passes creen sons rítmics, les portes generen cruixits i el vent fa sorolls de fullatge.

El resultat és contingut audiovisual notable: els personatges parlen amb els moviments dels llavis coincidint amb l'àudio, les accions produeixen sons apropiats, i les escenes tenen paisatges sonors ambientals que coincideixen amb el context visual.

Veo 3 de Google DeepMind

Veo 3 adopta una arquitectura multi-etapa: el generador de vídeo principal (12B paràmetres) treballa juntament amb un sintetitzador d'àudio dedicat (9B paràmetres). Ambdós comparteixen representacions, però s'especialitzen en les seves respectives sortides.

Punts forts:

  • Qualitat d'àudio d'alta fidelitat
  • Excel·lent sincronització labial (≤120ms)
  • Barreja musical rica
  • Fort modelatge ambient

Limitacions:

  • Només durada base de 8 segons
  • Síntesi de veu menys natural
  • Generació de diàleg limitada
  • Controlabilitat d'àudio menor

Kuaishou Kling O1

El Kling O1, el primer model multimodal veritablement unificat, representa l'enfocament més integrat. A diferència de Sora 2 i Veo 3 que tenen components d'àudio i vídeo relacionats però tècnicament separables, Kling O1 processa ambdues modalitats com una experiència fonamentalment unificada.

💡

L'arquitectura unificada de Kling significa que l'àudio i el vídeo no només estan sincronitzats, sinó que estan genuïnament correlacionats. La qualitat del so s'escala amb la complexitat visual, i ambdues modalitats influeixen en la generació de l'altra.

La física del so generat

El que fa que l'àudio natiu sigui convincent és com els models aprenen la física del so:

  • Causalitat espacial: Els sons més propers són més forts, els sons llunyans estan esmorteïts
  • Reflexos materials: El metall sona com a metall, la fusta sona com a fusta
  • Dinàmiques temporals: Les accions ràpides creen sons aguts, els moviments lents generen tons més baixos
  • Context ambiental: Els interiors tenen reverberació, els exteriors estan més secs

El model no només posa efectes de so, sinó que entén per què les coses sonen com sonen.

Implicacions pràctiques per als creadors

Què es torna més fàcil
  • Prototipat ràpid amb so complet
  • Generació de contingut social amb un sol clic
  • Producció d'esborrany que sona professionalment
  • Iteració sense refets d'àudio
Què encara necessita treball manual
  • Diàleg amb guió precís
  • Música amb llicència
  • Disseny de so de marca
  • Mescla de qualitat per a emissions

Per a la majoria de fluxos de treball de contingut, l'àudio natiu redueix el temps de producció en un 60-80%. Generes, fas petites edicions i exportes. La fase de "sincronitza àudio per a cada clip" desapareix.

Comparació de qualitat

Després de provar els tres models extensivament:

AspecteSora 2Veo 3Kling O1
Precisió de sincronització labialBonaMolt bonaBona
Qualitat d'ambientExcel·lentExcel·lentMolt bona
Qualitat de la veuBonaMenys naturalMolt bona
Alineació d'efectesMolt bonaMolt bonaExcel·lent
Generació de músicaBàsicaRicaBona

Cap model és universalment millor. Sora 2 excel·leix en complexitat visual i detall. Veo 3 produeix l'àudio de major fidelitat. Kling O1 aconsegueix la coherència audiovisual més natural.

L'excepció de Runway

⚠️L'elecció de Runway

En particular, Runway Gen-4.5, malgrat liderar les classificacions de qualitat visual, encara no té generació d'àudio nativa. Continuen centrant-se en la qualitat visual i eines d'edició en lloc de la síntesi audiovisual.

L'associació d'Adobe amb Runway suggereix que l'àudio podria venir a través de la integració amb l'ecosistema d'àudio d'Adobe en lloc de capacitats natives del model. Diferent estratègia, potencialment resultats similars.

Propers passos

El panorama del vídeo amb IA ara té una divisió clara:

  • Models antics: Generació silenciosa + pipeline d'àudio manual
  • Models nous: Síntesi audiovisual unificada

Si encara estàs generant vídeos silenciosos i afegint àudio després, és hora de re-avaluar el teu flux de treball. L'estalvi de temps de l'àudio natiu és substancial, sovint hores per projecte per a contingut de format curt.

L'era del cinema mut va durar trenta anys. L'era del vídeo IA silenciós va durar aproximadament dos. Benvingut al futur audiovisual.


Fonts

T'ha resultat útil aquest article?

Damien

Damien

Desenvolupador d'IA

Desenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.

Articles relacionats

Continua explorant amb aquests articles relacionats

T'ha agradat aquest article?

Descobreix més idees i mantén-te al dia amb el nostre contingut més recent.

El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA