El fi de l'era silenciosa: com Sora 2, Veo 3 i Kling porten l'àudio natiu a la generació de vídeo amb IA
Durant anys, la generació de vídeo amb IA va crear imatges en moviment mudes que requerien llargues postproducions d'àudio. El 2025, la generació d'àudio natiu finalment unifica so i visió en una única passada de model. Explorem com funcionen Sora 2, Veo 3 i Kling O1, i què significa això per als creadors.

Recordes l'era del cinema mut? Durant dècades, el públic veia actors moure's sense sentir-ne les veus. Després va arribar El cantant de jazz el 1927, i tot va canviar. Estem vivint aquest moment per a la generació de vídeo amb IA ara mateix.
L'era del vídeo IA silenciós (2023-2025)
Des dels primers models de text-a-vídeo fins a principis de 2025, la generació de vídeo amb IA significava crear pel·lícules mudes que necessitaven un treball de postproducció àudio extens.
El flux de treball era consistent en totes les eines:
- Generar vídeo silenciós a partir del prompt
- Exportar a l'editor d'àudio
- Generar o cercar efectes de so per separat
- Sincronitzar manualment àudio amb elements visuals
- Ajustar el timing per centenars de cops
- Renderitzar el compost final
Aquest flux de treball podia trigar més temps que la producció de vídeo tradicional. Generaves un clip de 10 segons en minuts, després passaves hores fent que el so coincidís.
El salt del 2025: generació audiovisual unificada
La innovació tècnica és elegant: en lloc de tractar l'àudio com una reflexió posterior, els models moderns generen vídeo i àudio junts en un procés de difusió unificat. El model aprèn la correlació entre patrons visuals i signatures sonores durant l'entrenament.
# Generació antiga: pipelines separats
video = video_model.generate(prompt) # Sortida silenciosa
audio = audio_model.generate(prompt) # Generació separada
final = manually_sync(video, audio) # Alineació dolorosa
# Generació nova: difusió unificada
audiovisual = unified_model.generate(prompt) # Tot junt
# L'àudio està inherentment sincronitzat amb el contingut visualCom ho fa cada model
Sora 2 d'OpenAI
El llançament de Sora 2 el setembre de 2025 va marcar l'entrada d'OpenAI a l'àudio natiu. L'arquitectura comprimeix tant l'àudio com el vídeo en un espai latent compartit, després genera ambdues modalitats simultàniament a través d'un procés de difusió.
Capacitats de so
Sora 2 genera diàleg sincronitzat amb els llavis, so ambient, efectes sincronitzats amb accions i música de fons. El model entén que les passes creen sons rítmics, les portes generen cruixits i el vent fa sorolls de fullatge.
El resultat és contingut audiovisual notable: els personatges parlen amb els moviments dels llavis coincidint amb l'àudio, les accions produeixen sons apropiats, i les escenes tenen paisatges sonors ambientals que coincideixen amb el context visual.
Veo 3 de Google DeepMind
Veo 3 adopta una arquitectura multi-etapa: el generador de vídeo principal (12B paràmetres) treballa juntament amb un sintetitzador d'àudio dedicat (9B paràmetres). Ambdós comparteixen representacions, però s'especialitzen en les seves respectives sortides.
Punts forts:
- Qualitat d'àudio d'alta fidelitat
- Excel·lent sincronització labial (≤120ms)
- Barreja musical rica
- Fort modelatge ambient
Limitacions:
- Només durada base de 8 segons
- Síntesi de veu menys natural
- Generació de diàleg limitada
- Controlabilitat d'àudio menor
Kuaishou Kling O1
El Kling O1, el primer model multimodal veritablement unificat, representa l'enfocament més integrat. A diferència de Sora 2 i Veo 3 que tenen components d'àudio i vídeo relacionats però tècnicament separables, Kling O1 processa ambdues modalitats com una experiència fonamentalment unificada.
L'arquitectura unificada de Kling significa que l'àudio i el vídeo no només estan sincronitzats, sinó que estan genuïnament correlacionats. La qualitat del so s'escala amb la complexitat visual, i ambdues modalitats influeixen en la generació de l'altra.
La física del so generat
El que fa que l'àudio natiu sigui convincent és com els models aprenen la física del so:
- ✓Causalitat espacial: Els sons més propers són més forts, els sons llunyans estan esmorteïts
- ✓Reflexos materials: El metall sona com a metall, la fusta sona com a fusta
- ✓Dinàmiques temporals: Les accions ràpides creen sons aguts, els moviments lents generen tons més baixos
- ✓Context ambiental: Els interiors tenen reverberació, els exteriors estan més secs
El model no només posa efectes de so, sinó que entén per què les coses sonen com sonen.
Implicacions pràctiques per als creadors
- Prototipat ràpid amb so complet
- Generació de contingut social amb un sol clic
- Producció d'esborrany que sona professionalment
- Iteració sense refets d'àudio
- Diàleg amb guió precís
- Música amb llicència
- Disseny de so de marca
- Mescla de qualitat per a emissions
Per a la majoria de fluxos de treball de contingut, l'àudio natiu redueix el temps de producció en un 60-80%. Generes, fas petites edicions i exportes. La fase de "sincronitza àudio per a cada clip" desapareix.
Comparació de qualitat
Després de provar els tres models extensivament:
| Aspecte | Sora 2 | Veo 3 | Kling O1 |
|---|---|---|---|
| Precisió de sincronització labial | Bona | Molt bona | Bona |
| Qualitat d'ambient | Excel·lent | Excel·lent | Molt bona |
| Qualitat de la veu | Bona | Menys natural | Molt bona |
| Alineació d'efectes | Molt bona | Molt bona | Excel·lent |
| Generació de música | Bàsica | Rica | Bona |
Cap model és universalment millor. Sora 2 excel·leix en complexitat visual i detall. Veo 3 produeix l'àudio de major fidelitat. Kling O1 aconsegueix la coherència audiovisual més natural.
L'excepció de Runway
En particular, Runway Gen-4.5, malgrat liderar les classificacions de qualitat visual, encara no té generació d'àudio nativa. Continuen centrant-se en la qualitat visual i eines d'edició en lloc de la síntesi audiovisual.
L'associació d'Adobe amb Runway suggereix que l'àudio podria venir a través de la integració amb l'ecosistema d'àudio d'Adobe en lloc de capacitats natives del model. Diferent estratègia, potencialment resultats similars.
Propers passos
El panorama del vídeo amb IA ara té una divisió clara:
- Models antics: Generació silenciosa + pipeline d'àudio manual
- Models nous: Síntesi audiovisual unificada
Si encara estàs generant vídeos silenciosos i afegint àudio després, és hora de re-avaluar el teu flux de treball. L'estalvi de temps de l'àudio natiu és substancial, sovint hores per projecte per a contingut de format curt.
L'era del cinema mut va durar trenta anys. L'era del vídeo IA silenciós va durar aproximadament dos. Benvingut al futur audiovisual.
Fonts
T'ha resultat útil aquest article?

Damien
Desenvolupador d'IADesenvolupador d'IA de Lió que li encanta convertir conceptes complexos de ML en receptes simples. Quan no està depurant models, el trobaràs pedalant per la vall del Roine.
Articles relacionats
Continua explorant amb aquests articles relacionats

Sora 2 vs Runway Gen-4.5 vs Veo 3: comparativa de generació de vídeo IA 2025
Comparativa exhaustiva dels tres principals generadors de vídeo amb IA del desembre de 2025. Detallem la qualitat visual, les característiques d'àudio, els preus i els millors casos d'ús per a cada eina.

YouTube porta Veo 3 Fast als Shorts: Generació de vídeo amb IA gratuïta per a 2.500 milions d'usuaris
Google integra el seu model Veo 3 Fast directament a YouTube Shorts, oferint generació de vídeo a partir de text amb àudio de manera gratuïta per a creadors de tot el món. Això és el que significa per a la plataforma i l'accessibilitat del vídeo amb IA.

Kling 2.6: La clonacio de veu i el control de moviment redefineixen la creacio de video amb IA
L'ultima actualitzacio de Kuaishou introdueix generacio audiovisual simultania, entrenament de veu personalitzat i captura de moviment precisa que podrien transformar la manera com els creadors aborden la produccio de video amb IA.