Mirelo aconsegueix 41 milions de dòlars per resoldre el problema silenciós del vídeo amb IA
La startup berlinesa Mirelo acaba d'aconseguir 41 milions de dòlars d'Index Ventures i a16z per portar efectes de so generats per IA al vídeo. Amb el suport d'executius de Mistral i Hugging Face, estan construint el que la indústria necessita desesperadament: àudio intel·ligent per a la revolució de vídeo silenciós.

Cada vegada que genero un vídeo amb IA, passa el mateix. Els visuals em deixen bocabadat. El moviment és fluid. La il·luminació és cinematogràfica. Després premo reproduir i... res. Silenci. Hem estat vivint a través d'una era de cinema mut, i ni tan sols me n'havia adonat fins ara.
L'aposta de 41 milions de dòlars sobre el so
Mirelo, una startup berlinesa fundada per investigadors d'IA que també són músics, acaba de tancar una ronda de finançament inicial de 41 milions de dòlars. Index Ventures i Andreessen Horowitz van liderar la inversió. Això no és una aposta petita sobre l'àudio.
El finançament total de Mirelo ara ascendeix a 44 milions de dòlars, incloent suport pre-seed anterior d'Atlantic. La llista d'àngels sembla un saló de la fama d'IA: Arthur Mensch (CEO de Mistral), Thomas Wolf (director científic de Hugging Face) i Burkay Gur (cofundador de Fal.ai).
L'argumentació és elegant: pujes un vídeo, la seva IA el mira i genera efectes de so perfectament sincronitzats. No música de fons genèrica. Àudio real d'estil foley que coincideix amb el que està passant a la pantalla.
Per què això importa ara
Pensa en el panorama de vídeo amb IA al desembre de 2025:
- Runway Gen-4.5 produeix visuals impressionants però sense àudio natiu
- Sora 2 genera clips de fins a 90 segons, tots silenciosos
- Veo 3.1 acaba d'afegir àudio, però només per a certes funcions
La indústria ha estat corrent cap a generació fotorealista mentre deixava enrere la meitat de l'experiència sensorial. Mirelo està omplint aquest buit.
Com funciona Mirelo SFX
El seu model insígnia s'anomena Mirelo SFX v1.5. Pel que puc deduir de la seva documentació API i demos:
- Anàlisi d'escena: el model mira el teu vídeo i identifica objectes, accions i context ambiental
- Mapatge temporal: esbrina quan passen esdeveniments: una porta tancant-se, passos, vidre trencant-se
- Generació de so: la IA crea àudio que coincideix amb la temporització visual i les propietats acústiques
- Mescla: tot es superposa amb nivells apropiats i posicionament espacial
El resultat no és només efectes de so enganxats al vídeo. És àudio que sembla que pertany.
Entrada: vídeo generat per IA de pluja copejant una finestra
Sortida: gotes de pluja amb intensitat variable, ressonància de vidre, to ambient de sala
Resultat: el vídeo de sobte sembla realEls fundadors músics
CJ Simon-Gabriel i Florian Wenzel són investigadors d'IA i músics. Aquesta combinació importa més del que pots pensar.
Els músics entenen alguna cosa sobre l'àudio que els enginyers de ML purs poden passar per alt: la temporització ho és tot. Un efecte de so que arriba 50 mil·lisegons tard sembla malament encara que no puguis identificar conscientment per què. L'impacte emocional de l'àudio depèn de la sincronització microscòpica.
El seu doble origen es mostra al producte. Mirelo no només genera sons, els genera amb musicalitat.
L'estratègia de distribució
Mirelo està prenent un enfocament intel·ligent del mercat:
| Canal | Propòsit | Estat |
|---|---|---|
| Mirelo Studio | Espai de treball directe per a creadors | Disponible |
| Fal.ai | API per a desenvolupadors | Actiu |
| Replicate | Accés alternatiu API | Actiu |
| Freemium | Pla creador 20€/mes | Disponible |
Distribuint a través de Fal.ai i Replicate, estan trobant desenvolupadors on ja construeixen. Si estàs creant un pipeline de vídeo amb IA, pots posar Mirelo a la teva infraestructura sense reconstruir-ho tot.
La competència està arribant
Mirelo no està operant al buit:
| Empresa | Força | Debilitat |
|---|---|---|
| Mirelo | Focus especialitzat + fundadors músics | Escala de startup |
| ElevenLabs | Domini de veu | Menys focus en SFX |
| Kling AI (Kuaishou) | Plataforma de vídeo integrada | Menys especialització en àudio |
Sony, Tencent i ElevenLabs estan jugant tots a espais adjacents. Però el focus làser de Mirelo en efectes de so per a vídeo els dóna un avantatge. No estan intentant ser-ho tot, estan intentant ser excel·lents en una cosa.
L'ètica de les dades d'entrenament
Un detall em va cridar l'atenció: Mirelo obté dades d'entrenament de biblioteques de sons públiques i comprades, amb acords de compartició d'ingressos que respecten els drets dels artistes.
Això importa. La indústria d'IA està enfrontant un escrutini creixent sobre les pràctiques de dades d'entrenament. Mirelo sembla estar construint èticament des del començament, el que podria convertir-se en un avantatge competitiu a mesura que les regulacions es tornin més estrictes.
Què significa això per als creadors
Si estàs generant vídeo amb IA avui, el teu flux de treball probablement es veu així:
- Generar visuals amb Sora/Runway/Veo
- Exportar a programari d'edició
- Afegir efectes de so manualment de la biblioteca
- Sincronitzar àudio amb vídeo
- Ajustar nivells i temporització
- Exportar vídeo final
Amb Mirelo, els passos 3-5 es col·lapsen en una crida API. L'estalvi de temps es compon ràpidament quan estàs produint volum.
El camí cap a la música amb IA
Mirelo té generació de música amb IA al seu full de ruta. El model d'efectes de so és només el començament.
Imagina generar un vídeo amb:
- Visuals generats per IA
- Diàleg generat per IA (ElevenLabs)
- Efectes de so generats per IA (Mirelo)
- Banda sonora generada per IA (futur Mirelo)
Estem muntant les peces per a mitjans completament sintètics. Si això t'emociona o t'aterroritza probablement depèn del que crees per guanyar-te la vida.
Preus i accés
Per als creadors que volen provar Mirelo:
- Nivell gratuït: generacions limitades per provar la plataforma
- Pla creador: 20€/mes (~23,50 $) per a ús recomanat
- API: pagament per ús a través de Fal.ai i Replicate
- Empresa: preus personalitzats per a escala
El pla creador és sorprenentment assequible donada la tecnologia. Compara això amb contractar un artista foley o llicenciar biblioteques de sons professionals.
La meva opinió
Hem estat tan centrats en fer que el vídeo amb IA sembli millor que vam oblidar que el vídeo és un mitjà multisensorial. Mirelo està corregint aquesta supervisió.
Prova de pujar un dels teus vídeos generats per IA a la plataforma de Mirelo. La diferència entre abans i després és la diferència entre demo i lliurable.
Els 41 milions de dòlars en finançament suggereixen que els inversors veuen la mateixa oportunitat. L'àudio no és una característica agradable de tenir, és la meitat del que fa que el vídeo sigui convincent.
L'era del cinema mut va acabar el 1927 amb The Jazz Singer. Gairebé un segle després, el vídeo amb IA està tenint el seu propi moment "talkies".
Mirelo està apostant que poden ser el so d'aquesta nova era. Basant-se en la seva tecnologia, el seu equip i el seu moment, aquesta aposta sembla cada vegada més intel·ligent.
Començar
- Visita mirelo.io per explorar la plataforma
- Puja un vídeo amb IA silenciós
- Deixa que Mirelo generi àudio sincronitzat
- Compara amb el teu treball d'àudio manual
- Decideix si l'automatització està llesta per al teu flux de treball
La barrera d'entrada és baixa. L'estalvi de temps potencial és alt. I la tecnologia només millorarà a mesura que aquests 41 milions de dòlars es despleguin.
El so finalment té un seient a la taula del vídeo amb IA.
T'ha resultat útil aquest article?

Henry
Tecnòleg CreatiuTecnòleg creatiu de Lausana que explora on la IA es troba amb l'art. Experimenta amb models generatius entre sessions de música electrònica.
Articles relacionats
Continua explorant amb aquests articles relacionats

Pika 2.5: Democratitzant el vídeo amb IA a través de velocitat, preu i eines creatives
Pika Labs llança la versió 2.5, combinant generació més ràpida, física millorada i eines creatives com Pikaframes i Pikaffects per fer el vídeo amb IA accessible per a tothom.

Kandinsky 5.0: La resposta de codi obert de Rússia a la generació de vídeo amb IA
Kandinsky 5.0 porta la generació de vídeo de 10 segons a GPUs de consumidor amb llicència Apache 2.0. Explorem com l'atenció NABLA i el flow matching fan això possible.
Google entra a la cursa dels avatars d'IA: Veo 3.1 impulsa nous avatars a Google Vids
Google actualitza Vids amb avatars impulsats per Veo 3.1, prometent als usuaris empresarials una preferència cinc vegades superior respecte als competidors. Com es compara això amb Synthesia i HeyGen?