El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA

Recordes l'era del cinema mut? Durant dècades, el públic veia actors moure's sense sentir-ne les veus. Després va arribar El cantant de jazz el 1927, i tot va canviar. Estem vivint aquest moment per a la generació de vídeo amb IA ara mateix.

L'era del vídeo IA silenciós (2023-2025)

💡Context històric

Des dels primers models de text-a-vídeo fins a principis de 2025, la generació de vídeo amb IA significava crear pel·lícules mudes que necessitaven un treball de postproducció àudio extens.

El flux de treball era consistent en totes les eines:

Generar vídeo silenciós a partir del prompt
Exportar a l'editor d'àudio
Generar o cercar efectes de so per separat
Sincronitzar manualment àudio amb elements visuals
Ajustar el timing per centenars de cops
Renderitzar el compost final

Aquest flux de treball podia trigar més temps que la producció de vídeo tradicional. Generaves un clip de 10 segons en minuts, després passaves hores fent que el so coincidís.

El salt del 2025: generació audiovisual unificada

Models principals amb àudio natiu

≤120ms

Precisió de sincronització

Passada de generació

La innovació tècnica és elegant: en lloc de tractar l'àudio com una reflexió posterior, els models moderns generen vídeo i àudio junts en un procés de difusió unificat. El model aprèn la correlació entre patrons visuals i signatures sonores durant l'entrenament.

# Generació antiga: pipelines separats
video = video_model.generate(prompt)  # Sortida silenciosa
audio = audio_model.generate(prompt)  # Generació separada
final = manually_sync(video, audio)    # Alineació dolorosa
 
# Generació nova: difusió unificada
audiovisual = unified_model.generate(prompt)  # Tot junt
# L'àudio està inherentment sincronitzat amb el contingut visual

Com ho fa cada model

Sora 2 d'OpenAI

El llançament de Sora 2 el setembre de 2025 va marcar l'entrada d'OpenAI a l'àudio natiu. L'arquitectura comprimeix tant l'àudio com el vídeo en un espai latent compartit, després genera ambdues modalitats simultàniament a través d'un procés de difusió.

🎵

Capacitats de so

Sora 2 genera diàleg sincronitzat amb els llavis, so ambient, efectes sincronitzats amb accions i música de fons. El model entén que les passes creen sons rítmics, les portes generen cruixits i el vent fa sorolls de fullatge.

El resultat és contingut audiovisual notable: els personatges parlen amb els moviments dels llavis coincidint amb l'àudio, les accions produeixen sons apropiats, i les escenes tenen paisatges sonors ambientals que coincideixen amb el context visual.

Veo 3 de Google DeepMind

Veo 3 adopta una arquitectura multi-etapa: el generador de vídeo principal (12B paràmetres) treballa juntament amb un sintetitzador d'àudio dedicat (9B paràmetres). Ambdós comparteixen representacions, però s'especialitzen en les seves respectives sortides.

Punts forts:

Qualitat d'àudio d'alta fidelitat
Excel·lent sincronització labial (≤120ms)
Barreja musical rica
Fort modelatge ambient

Limitacions:

Només durada base de 8 segons
Síntesi de veu menys natural
Generació de diàleg limitada
Controlabilitat d'àudio menor

Kuaishou Kling O1

El Kling O1, el primer model multimodal veritablement unificat, representa l'enfocament més integrat. A diferència de Sora 2 i Veo 3 que tenen components d'àudio i vídeo relacionats però tècnicament separables, Kling O1 processa ambdues modalitats com una experiència fonamentalment unificada.

💡

L'arquitectura unificada de Kling significa que l'àudio i el vídeo no només estan sincronitzats, sinó que estan genuïnament correlacionats. La qualitat del so s'escala amb la complexitat visual, i ambdues modalitats influeixen en la generació de l'altra.

La física del so generat

El que fa que l'àudio natiu sigui convincent és com els models aprenen la física del so:

✓Causalitat espacial: Els sons més propers són més forts, els sons llunyans estan esmorteïts
✓Reflexos materials: El metall sona com a metall, la fusta sona com a fusta
✓Dinàmiques temporals: Les accions ràpides creen sons aguts, els moviments lents generen tons més baixos
✓Context ambiental: Els interiors tenen reverberació, els exteriors estan més secs

El model no només posa efectes de so, sinó que entén per què les coses sonen com sonen.

Implicacions pràctiques per als creadors

✓Què es torna més fàcil

Prototipat ràpid amb so complet
Generació de contingut social amb un sol clic
Producció d'esborrany que sona professionalment
Iteració sense refets d'àudio

✗Què encara necessita treball manual

Diàleg amb guió precís
Música amb llicència
Disseny de so de marca
Mescla de qualitat per a emissions

Per a la majoria de fluxos de treball de contingut, l'àudio natiu redueix el temps de producció en un 60-80%. Generes, fas petites edicions i exportes. La fase de "sincronitza àudio per a cada clip" desapareix.

Comparació de qualitat

Després de provar els tres models extensivament:

Aspecte	Sora 2	Veo 3	Kling O1
Precisió de sincronització labial	Bona	Molt bona	Bona
Qualitat d'ambient	Excel·lent	Excel·lent	Molt bona
Qualitat de la veu	Bona	Menys natural	Molt bona
Alineació d'efectes	Molt bona	Molt bona	Excel·lent
Generació de música	Bàsica	Rica	Bona

Cap model és universalment millor. Sora 2 excel·leix en complexitat visual i detall. Veo 3 produeix l'àudio de major fidelitat. Kling O1 aconsegueix la coherència audiovisual més natural.

L'excepció de Runway

⚠️L'elecció de Runway

En particular, Runway Gen-4.5, malgrat liderar les classificacions de qualitat visual, encara no té generació d'àudio nativa. Continuen centrant-se en la qualitat visual i eines d'edició en lloc de la síntesi audiovisual.

L'associació d'Adobe amb Runway suggereix que l'àudio podria venir a través de la integració amb l'ecosistema d'àudio d'Adobe en lloc de capacitats natives del model. Diferent estratègia, potencialment resultats similars.

Propers passos

El panorama del vídeo amb IA ara té una divisió clara:

Models antics: Generació silenciosa + pipeline d'àudio manual
Models nous: Síntesi audiovisual unificada

Si encara estàs generant vídeos silenciosos i afegint àudio després, és hora de re-avaluar el teu flux de treball. L'estalvi de temps de l'àudio natiu és substancial, sovint hores per projecte per a contingut de format curt.

L'era del cinema mut va durar trenta anys. L'era del vídeo IA silenciós va durar aproximadament dos. Benvingut al futur audiovisual.

El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA

L'era del vídeo IA silenciós (2023-2025)

El salt del 2025: generació audiovisual unificada

Com ho fa cada model

Sora 2 d'OpenAI

Capacitats de so

Veo 3 de Google DeepMind

Kuaishou Kling O1

La física del so generat

Implicacions pràctiques per als creadors

Comparació de qualitat

L'excepció de Runway

Propers passos

Fonts

Damien

Articles relacionats

Sora 2 vs Runway Gen-4.5 vs Veo 3: comparativa de generació de vídeo IA 2025

YouTube porta Veo 3 Fast als Shorts: Generació de vídeo amb IA gratuïta per a 2.500 milions d'usuaris

Kling 2.6: La clonacio de veu i el control de moviment redefineixen la creacio de video amb IA

T'ha agradat aquest article?