Mirelo Huy Động $41 Triệu để Giải Quyết Vấn Đề Âm Thanh trong Video AI
Startup Berlin Mirelo vừa đảm bảo được 41 triệu đô la từ Index Ventures và a16z để mang hiệu ứng âm thanh do AI tạo ra cho video. Với sự hỗ trợ từ các giám đốc điều hành của Mistral và Hugging Face, họ đang xây dựng thứ mà ngành công nghiệp rất cần: âm thanh thông minh cho cuộc cách mạng video im lặng.

Mỗi lần tôi tạo một video AI, điều tương tự luôn xảy ra. Hình ảnh làm tôi kinh ngạc. Chuyển động mượt mà. Ánh sáng như điện ảnh. Rồi tôi nhấn phát và... không có gì. Im lặng. Chúng ta đang sống trong kỷ nguyên phim câm, và tôi thậm chí không nhận ra điều đó cho đến bây giờ.
Cược 41 Triệu Đô La vào Âm Thanh
Mirelo, một startup có trụ sở tại Berlin được thành lập bởi các nhà nghiên cứu AI kiêm nhạc sĩ, vừa đóng vòng seed 41 triệu đô la. Index Ventures và Andreessen Horowitz dẫn đầu khoản đầu tư. Đây không phải là một khoản cược nhỏ vào âm thanh.
Tổng số vốn của Mirelo hiện là 44 triệu đô la, bao gồm cả hỗ trợ pre-seed trước đó từ Atlantic. Danh sách các nhà đầu tư thiên thần giống như đại sảnh danh vọng AI: Arthur Mensch (CEO Mistral), Thomas Wolf (giám đốc khoa học trưởng Hugging Face), và Burkay Gur (đồng sáng lập Fal.ai).
Ý tưởng rất tinh tế: bạn tải lên một video, AI của họ xem nó, và tạo ra hiệu ứng âm thanh được đồng bộ hóa hoàn hảo. Không phải nhạc nền chung chung. Âm thanh kiểu foley thực sự phù hợp với những gì đang xảy ra trên màn hình.
Tại Sao Điều Này Quan Trọng Bây Giờ
Hãy nghĩ về bối cảnh video AI vào tháng 12 năm 2025:
- Runway Gen-4.5 tạo ra hình ảnh tuyệt đẹp nhưng không có âm thanh gốc
- Sora 2 tạo clip lên đến 90 giây—tất cả đều im lặng
- Veo 3.1 vừa thêm âm thanh, nhưng chỉ cho một số tính năng nhất định
Ngành công nghiệp đã chạy nước rút hướng tới việc tạo ra hình ảnh chân thực trong khi để lại một nửa trải nghiệm giác quan. Mirelo đang lấp đầy khoảng trống đó.
Cách Mirelo SFX Hoạt Động
Mô hình chủ lực của họ được gọi là Mirelo SFX v1.5. Từ những gì tôi có thể tổng hợp từ tài liệu API và demo của họ:
- Phân Tích Cảnh: Mô hình xem video của bạn và xác định các đối tượng, hành động và bối cảnh môi trường
- Ánh Xạ Thời Gian: Nó tìm ra khi nào các sự kiện xảy ra—cửa đóng, tiếng bước chân, kính vỡ
- Tạo Âm Thanh: AI tạo ra âm thanh phù hợp với thời gian hình ảnh và các thuộc tính âm học
- Trộn: Mọi thứ được xếp lớp cùng nhau với mức độ và vị trí không gian phù hợp
Kết quả không chỉ là hiệu ứng âm thanh được dán vào video. Đó là âm thanh cảm thấy như thuộc về đó.
Đầu vào: Video do AI tạo ra về mưa rơi trên cửa sổ
Đầu ra: Giọt mưa với cường độ thay đổi, âm vang kính, âm thanh xung quanh phòng
Kết quả: Video đột nhiên cảm thấy thậtNhững Người Sáng Lập Là Nhạc Sĩ
CJ Simon-Gabriel và Florian Wenzel đều là nhà nghiên cứu AI và nhạc sĩ. Sự kết hợp đó quan trọng hơn bạn nghĩ.
Nhạc sĩ hiểu điều gì đó về âm thanh mà các kỹ sư ML thuần túy có thể bỏ lỡ: thời gian là tất cả. Một hiệu ứng âm thanh đến trễ 50 mili giây cảm thấy sai ngay cả khi bạn không thể xác định tại sao một cách có ý thức. Tác động cảm xúc của âm thanh phụ thuộc vào sự đồng bộ hóa vi mô.
Nền tảng kép của họ thể hiện trong sản phẩm. Mirelo không chỉ tạo ra âm thanh—nó tạo ra chúng với tính âm nhạc.
Chiến Lược Phân Phối
Mirelo đang thực hiện cách tiếp cận thông minh với thị trường:
| Kênh | Mục Đích | Trạng Thái |
|---|---|---|
| Mirelo Studio | Không gian làm việc trực tiếp cho người sáng tạo | Có sẵn |
| Fal.ai | API cho nhà phát triển | Hoạt động |
| Replicate | Truy cập API thay thế | Hoạt động |
| Freemium | Gói creator €20/tháng | Có sẵn |
Bằng cách phân phối qua Fal.ai và Replicate, họ đang gặp gỡ các nhà phát triển nơi họ đã xây dựng. Nếu bạn đang tạo một quy trình video AI, bạn có thể đưa Mirelo vào ngăn xếp của mình mà không cần xây dựng lại mọi thứ.
Cạnh Tranh Đang Đến
Mirelo không hoạt động trong chân không:
| Company | Strength | Weakness |
|---|---|---|
| Mirelo | Tập Trung Chuyên Biệt + Người Sáng Lập Là Nhạc Sĩ | Quy Mô Startup |
| ElevenLabs | Sự Thống Trị Giọng Nói | Ít Tập Trung vào SFX |
| Kling AI (Kuaishou) | Nền Tảng Video Tích Hợp | Ít Chuyên Môn Hóa Âm Thanh |
Sony, Tencent và ElevenLabs đều đang chơi trong các không gian liền kề. Nhưng sự tập trung như tia laser của Mirelo vào hiệu ứng âm thanh cho video mang lại cho họ lợi thế. Họ không cố gắng trở thành tất cả mọi thứ—họ cố gắng xuất sắc trong một điều.
Đạo Đức của Dữ Liệu Đào Tạo
Một chi tiết nổi bật với tôi: Mirelo lấy nguồn dữ liệu đào tạo từ các thư viện âm thanh công cộng và đã mua, với các mối quan hệ đối tác chia sẻ doanh thu tôn trọng quyền của nghệ sĩ.
Điều này quan trọng. Ngành công nghiệp AI đang đối mặt với sự giám sát ngày càng tăng về các thực tiễn dữ liệu đào tạo. Mirelo dường như đang xây dựng một cách có đạo đức ngay từ đầu, điều này có thể trở thành lợi thế cạnh tranh khi các quy định thắt chặt.
Điều Này Có Nghĩa Gì cho Người Sáng Tạo
Nếu bạn đang tạo video AI ngày nay, quy trình làm việc của bạn có thể trông như thế này:
- Tạo hình ảnh với Sora/Runway/Veo
- Xuất sang phần mềm chỉnh sửa
- Thêm thủ công hiệu ứng âm thanh từ thư viện
- Đồng bộ âm thanh với video
- Điều chỉnh mức độ và thời gian
- Xuất video cuối cùng
Với Mirelo, các bước 3-5 thu gọn thành một lệnh gọi API. Thời gian tiết kiệm tăng nhanh khi bạn sản xuất khối lượng lớn.
Con Đường đến Nhạc AI
Mirelo có tạo nhạc AI trong lộ trình của họ. Mô hình hiệu ứng âm thanh chỉ là khởi đầu.
Hãy tưởng tượng tạo một video với:
- Hình ảnh do AI tạo ra
- Đối thoại do AI tạo ra (ElevenLabs)
- Hiệu ứng âm thanh do AI tạo ra (Mirelo)
- Nhạc phim do AI tạo ra (Mirelo tương lai)
Chúng ta đang lắp ráp các mảnh ghép cho phương tiện truyền thông hoàn toàn tổng hợp. Điều đó làm bạn phấn khích hay sợ hãi có lẽ phụ thuộc vào những gì bạn tạo ra để kiếm sống.
Giá Cả và Truy Cập
Đối với những người sáng tạo muốn thử Mirelo:
- Gói miễn phí: Số lần tạo giới hạn để kiểm tra nền tảng
- Gói creator: €20/tháng (~$23.50) cho việc sử dụng được đề xuất
- API: Trả theo mức sử dụng qua Fal.ai và Replicate
- Doanh nghiệp: Giá tùy chỉnh cho quy mô
Gói creator khá phải chăng xét theo công nghệ. So sánh với việc thuê nghệ sĩ foley hoặc cấp phép thư viện âm thanh chuyên nghiệp.
Quan Điểm Của Tôi
Chúng ta quá tập trung vào việc làm cho video AI trông tốt hơn đến nỗi quên rằng video là một phương tiện đa giác quan. Mirelo đang điều chỉnh sự giám sát đó.
Hãy thử tải lên một trong những video do AI tạo ra của bạn lên nền tảng của Mirelo. Sự khác biệt giữa trước và sau là sự khác biệt giữa demo và sản phẩm có thể giao được.
Khoản tài trợ 41 triệu đô la cho thấy các nhà đầu tư nhìn thấy cùng một cơ hội. Âm thanh không phải là tính năng tốt để có—nó là một nửa của những gì làm cho video hấp dẫn.
Kỷ nguyên phim câm kết thúc vào năm 1927 với The Jazz Singer. Gần một thế kỷ sau, video AI đang có "khoảnh khắc phim có tiếng" của riêng nó.
Mirelo đang đặt cược rằng họ có thể là âm thanh của kỷ nguyên mới này. Dựa trên công nghệ, đội ngũ và thời điểm của họ, cược đó ngày càng trông thông minh.
Bắt Đầu
- Truy cập mirelo.io để khám phá nền tảng
- Tải lên một video AI im lặng
- Để Mirelo tạo âm thanh đồng bộ
- So sánh với công việc âm thanh thủ công của bạn
- Quyết định xem tự động hóa có sẵn sàng cho quy trình làm việc của bạn không
Rào cản gia nhập thấp. Thời gian tiết kiệm tiềm năng cao. Và công nghệ sẽ chỉ cải thiện khi 41 triệu đô la đó được triển khai.
Âm thanh cuối cùng đã có chỗ ngồi tại bàn video AI.
Bài viết này có hữu ích không?

Henry
Chuyên gia Công nghệ Sáng tạoChuyên gia công nghệ sáng tạo đến từ Lausanne, khám phá nơi AI gặp gỡ nghệ thuật. Thử nghiệm với các mô hình sinh tạo giữa những buổi làm nhạc điện tử.
Bài viết liên quan
Tiếp tục khám phá với những bài viết liên quan

Pika 2.5: Đại chúng hóa Video AI thông qua Tốc độ, Giá cả và Công cụ Sáng tạo
Pika Labs phát hành phiên bản 2.5, kết hợp tốc độ tạo nhanh hơn, vật lý nâng cao và các công cụ sáng tạo như Pikaframes và Pikaffects để làm cho video AI có thể tiếp cận được với mọi người.
Google Tham Gia Cuộc Đua AI Avatar: Veo 3.1 Cung Cấp Sức Mạnh Cho Avatar Mới Trong Google Vids
Google nâng cấp Vids bằng avatar được hỗ trợ bởi Veo 3.1, hứa hẹn người dùng doanh nghiệp ưu tiên tốt gấp năm lần so với các đối thủ cạnh tranh. Điều này so sánh như thế nào với Synthesia và HeyGen?

Hướng Dẫn Toàn Diện về Kỹ Thuật Viết Prompt cho Video AI năm 2025
Nắm vững nghệ thuật tạo prompt để sản xuất những video AI tuyệt đẹp. Tìm hiểu framework sáu tầng, thuật ngữ điện ảnh, và các kỹ thuật tối ưu cho từng nền tảng.