Meta Pixel
DamienDamien
7 min read
1368 Wörter

ByteDance Vidi2: KI, die Videos wie ein professioneller Editor versteht

ByteDance hat soeben Vidi2 als Open Source veröffentlicht, ein Modell mit 12 Milliarden Parametern, das Videoinhalte so gut versteht, dass es stundenlange Aufnahmen automatisch zu ausgefeilten Clips bearbeiten kann. Es betreibt bereits TikTok Smart Split.

ByteDance Vidi2: KI, die Videos wie ein professioneller Editor versteht

Während alle von Videogenerierung besessen sind, hat ByteDance stillschweigend ein anderes Problem gelöst: KI dazu zu bringen, Videos wie ein erfahrener Editor zu verstehen. Vidi2 kann sich stundenlange Rohaufnahmen ansehen und genau das Wesentliche extrahieren.

Das Problem, über das niemand spricht

Wir verfügen nun über beeindruckende KI-Videogeneratoren. Runway Gen-4.5 führt die Qualitätsranglisten an. Kling O1 generiert synchronisierten Ton. Doch hier ist das schmutzige Geheimnis der Videoproduktion: Die meiste Zeit wird für die Bearbeitung aufgewendet, nicht für die Erstellung.

Ein Hochzeitsvideograf filmt 8 Stunden Material für ein 5-minütiges Highlight-Video. Ein Content-Creator nimmt 45 Minuten auf, um einen 60-sekündigen TikTok zu erstellen. Ein Unternehmensteam hat 200 Stunden Schulungsmaterial in SharePoint vergraben.

💡

Videogenerierung macht Schlagzeilen. Videoverständnis erledigt die eigentliche Arbeit.

Vidi2 schließt diese Lücke. Es ist kein weiterer Generator. Es ist eine KI, die Videos ansieht, versteht, was geschieht, und Ihnen hilft, in großem Maßstab mit diesen Inhalten zu arbeiten.

Was Vidi2 tatsächlich leistet

ByteDance beschreibt Vidi2 als "Large Multimodal Model für Videoverständnis und -erstellung." Das Modell mit 12 Milliarden Parametern zeichnet sich aus durch:

🔍

Raum-zeitliche Verankerung

Finden Sie jedes Objekt in einem Video und verfolgen Sie es durch die Zeit. Nicht nur "da ist eine Katze bei 0:32", sondern "die Katze tritt bei 0:32 ein, bewegt sich zur Couch bei 0:45 und verlässt den Bildausschnitt bei 1:12."

✂️

Intelligente Bearbeitung

Analysieren Sie Aufnahmen und schlagen Sie Schnitte basierend auf dem Inhalt vor. Finden Sie die besten Momente, identifizieren Sie Szenengrenzen, verstehen Sie das Tempo.

📝

Inhaltsanalyse

Beschreiben Sie, was im Video geschieht, mit ausreichender Detailtiefe, um nützlich zu sein. Nicht "zwei Personen unterhalten sich", sondern "Interview-Segment, Gast erklärt Produktfunktionen, Moment hohen Engagements bei 3:45."

🎯

Objektverfolgung

Verfolgen Sie Objekte als durchgehende "Röhren" durch das Video, selbst wenn sie den Bildausschnitt verlassen und wieder betreten. Dies ermöglicht präzise Auswahl für Effekte, Entfernung oder Hervorhebung.

Die technische Innovation: Raum-zeitliche Verankerung

Frühere Video-KI arbeitete in zwei Dimensionen: Raum (was befindet sich in diesem Frame) oder Zeit (wann geschieht etwas). Vidi2 kombiniert beides zu dem, was ByteDance "Spatio-Temporal Grounding" (STG) nennt.

Traditioneller Ansatz:

  • Räumlich: "Das Auto befindet sich an den Pixelkoordinaten (450, 320)"
  • Zeitlich: "Ein Auto erscheint zum Zeitstempel 0:15"
  • Ergebnis: Zusammenhanglose Informationen, die manuelle Korrelation erfordern

Vidi2 STG:

  • Kombiniert: "Das rote Auto befindet sich bei (450, 320) bei 0:15, bewegt sich zu (890, 340) bei 0:18, verlässt rechts bei 0:22"
  • Ergebnis: Vollständige Objekttrajektorie durch Raum und Zeit

Dies ist wichtig, weil reale Bearbeitungsaufgaben beide Dimensionen erfordern. "Entfernen Sie die Tonangel" muss wissen, wo sie erscheint (räumlich) und wie lange (zeitlich). Vidi2 behandelt dies als einzelne Anfrage.

Benchmarks: Die Giganten übertroffen

12B
Parameter
#1
Videoverständnis
Open
Source

Hier wird es interessant. Bei ByteDances VUE-STG-Benchmark für raum-zeitliche Verankerung übertrifft Vidi2 sowohl Gemini 2.0 Flash als auch GPT-4o, obwohl es weniger Parameter als beide aufweist.

💡

Ein Vorbehalt: Diese Benchmarks wurden von ByteDance erstellt. Eine unabhängige Verifizierung anhand von Drittanbieter-Benchmarks würde diese Behauptungen stärken. Dennoch ist der Ansatz einer spezialisierten Architektur fundiert.

Die Benchmark-Ergebnisse legen nahe, dass Videoverständnis mehr von spezialisiertem Design profitiert als von reiner Größe. Ein von Grund auf für Video entwickeltes Modell kann größere Allzweckmodelle übertreffen, die Video als Erweiterung des Bildverständnisses behandeln.

Bereits in Produktion: TikTok Smart Split

Dies ist keine Vaporware. Vidi2 betreibt TikToks "Smart Split"-Funktion, die:

  • Automatisch Highlights aus langen Videos extrahiert
  • Mit Sprache synchronisierte Untertitel generiert
  • Layout für unterschiedliche Seitenverhältnisse rekonstruiert
  • Optimale Schnittpunkte basierend auf Inhalt identifiziert

Millionen von Creators nutzen Smart Split täglich. Das Modell ist in großem Maßstab bewährt, nicht theoretisch.

Open Source: Führen Sie es selbst aus

ByteDance hat Vidi2 auf GitHub unter einer CC-BY-NC-4.0-Lizenz veröffentlicht. Das bedeutet kostenlos für Forschung, Bildung und persönliche Projekte, aber kommerzielle Nutzung erfordert separate Lizenzierung. Die Implikationen:

Für Entwickler:

  • Erstellen Sie maßgeschneiderte Videoanalyse-Pipelines
  • Integrieren Sie Verständnis in bestehende Tools
  • Feinabstimmung für spezifische Domänen
  • Keine API-Kosten bei Skalierung

Für Unternehmen:

  • Verarbeiten Sie sensibles Material lokal
  • Erstellen Sie proprietäre Bearbeitungs-Workflows
  • Vermeiden Sie Vendor-Lock-in
  • Anpassung an interne Inhaltstypen

Die Open-Source-Veröffentlichung folgt einem Muster, das wir bei LTX Video und anderen chinesischen KI-Laboren gesehen haben: Veröffentlichung leistungsstarker Modelle als Open Source, während westliche Wettbewerber ihre proprietär halten.

Praktische Anwendungen

Lassen Sie mich einige reale Workflows durchgehen, die Vidi2 ermöglicht:

Inhaltswiederverwendung

Eingabe: 2-stündige Podcast-Aufnahme Ausgabe: 10 kurze Clips der besten Momente, jeder mit ordnungsgemäßen Intro/Outro-Schnitten

Das Modell identifiziert ansprechende Momente, findet natürliche Schnittpunkte und extrahiert Clips, die als eigenständige Inhalte funktionieren.

Schulungsvideo-Management

Eingabe: 500 Stunden Unternehmensschulungsmaterial Anfrage: "Finden Sie alle Segmente, die den neuen CRM-Workflow erklären"

Anstatt manuell zu suchen oder sich auf unzuverlässige Metadaten zu verlassen, sieht und versteht Vidi2 tatsächlich den Inhalt.

Sport-Highlights

Eingabe: Vollständige Spielaufzeichnung Ausgabe: Highlight-Reel mit allen Tor-Momenten, knappen Situationen und Feiern

Das Modell versteht den Sportkontext gut genug, um bedeutsame Momente zu identifizieren, nicht nur Bewegung.

Überwachungsauswertung

Eingabe: 24 Stunden Sicherheitsaufnahmen Anfrage: "Finden Sie alle Vorfälle von Personen, die nach 18 Uhr durch die Seitentür eintreten"

Raum-zeitliche Verankerung bedeutet präzise Antworten mit exakten Zeitstempeln und Positionen.

Vergleich mit Generierungsmodellen

Videoverständnis (Vidi2)
  • Arbeitet mit bestehendem Material
  • Spart Bearbeitungszeit, nicht Generierungszeit
  • Skaliert auf massive Videobibliotheken
  • Kein kreatives Prompting erforderlich
  • Sofort praktisch für Unternehmen
Videogenerierung (Runway, Sora)
  • Erstellt neuen Inhalt aus dem Nichts
  • Werkzeug für kreativen Ausdruck
  • Marketing- und Werbeanwendungen
  • Schnell wachsende Qualität
  • Spannend, aber anderer Anwendungsfall

Dies sind keine konkurrierenden Technologien. Sie lösen unterschiedliche Probleme. Ein vollständiger KI-Video-Workflow benötigt beides: Generierung für die Erstellung neuer Inhalte, Verständnis für die Arbeit mit bestehenden Inhalten.

Das größere Bild

⚠️

Videoverständnis ist der Punkt, an dem KI von "beeindruckender Demo" zu "täglichem Werkzeug" wird. Generierung erhält Aufmerksamkeit. Verständnis erledigt die Arbeit.

Bedenken Sie, was dies ermöglicht:

  • Jedes Unternehmen hat in Archiven gefangene Videoinhalte
  • Jeder Creator verbringt mehr Zeit mit Bearbeitung als mit Aufnahme
  • Jede Plattform benötigt bessere Inhaltsmoderation und -entdeckung
  • Jeder Forscher hat Material, das er nicht effizient analysieren kann

Vidi2 adressiert all dies. Die Open-Source-Veröffentlichung bedeutet, dass diese Fähigkeiten nun für jeden mit ausreichender Rechenleistung zugänglich sind.

Erste Schritte

Das Modell ist auf GitHub mit Dokumentation und Demos verfügbar. Anforderungen:

  • NVIDIA GPU mit mindestens 24GB VRAM für das vollständige Modell
  • Quantisierte Versionen für kleinere GPUs verfügbar
  • Python 3.10+ mit PyTorch 2.0+

Schnellstart:

git clone https://github.com/bytedance/vidi
cd vidi
pip install -r requirements.txt
python demo.py --video your_video.mp4 --query "describe the main events"

Die Dokumentation ist hauptsächlich auf Englisch, obwohl ByteDance ein chinesisches Unternehmen ist, was die globale Zielgruppe widerspiegelt.

Was dies für die Branche bedeutet

Die KI-Videolandschaft hat nun zwei unterschiedliche Spuren:

SpurFührendeFokusWert
GenerierungRunway, Sora, Veo, KlingNeues Video erstellenKreativer Ausdruck
VerständnisVidi2, (weitere in Entwicklung)Bestehendes Video analysierenProduktivität

Beide werden reifen. Beide werden sich integrieren. Der vollständige KI-Video-Stack von 2026 wird nahtlos generieren, bearbeiten und verstehen.

Vorerst stellt Vidi2 die leistungsfähigste Open-Source-Option für Videoverständnis dar. Wenn Sie Material zu analysieren, Bearbeitung zu automatisieren oder Inhalte zu organisieren haben, ist dies das zu erkundende Modell.

Meine Einschätzung

Ich habe Jahre damit verbracht, Videobearbeitungs-Pipelines zu entwickeln. Das Vorher und Nachher mit Modellen wie Vidi2 ist deutlich. Aufgaben, die maßgeschneiderte Computer-Vision-Stacks, manuelle Annotation und fragile Heuristiken erforderten, können nun mit einem Prompt gelöst werden.

💡

Die besten KI-Werkzeuge ersetzen nicht menschliches Urteilsvermögen. Sie beseitigen die mühsame Arbeit, die Menschen daran hindert, Urteilsvermögen in großem Maßstab anzuwenden.

Vidi2 ersetzt keine Editoren. Es verleiht Editoren Fähigkeiten, die zuvor in großem Maßstab unmöglich waren. Und mit offenem Zugang (für nicht-kommerzielle Nutzung) sind diese Fähigkeiten für jeden verfügbar, der bereit ist, die Infrastruktur einzurichten.

Die Zukunft von Video ist nicht nur Generierung. Es ist Verständnis. Und diese Zukunft ist jetzt Open Source.


Quellen

War dieser Artikel hilfreich?

Damien

Damien

KI-Entwickler

KI-Entwickler aus Lyon, der es liebt, komplexe ML-Konzepte in einfache Rezepte zu verwandeln. Wenn er nicht gerade Modelle debuggt, findet man ihn beim Radfahren durch das Rhônetal.

Verwandte Artikel

Entdecken Sie weitere verwandte Beiträge

Hat Ihnen dieser Artikel gefallen?

Entdecken Sie weitere Einblicke und bleiben Sie mit unseren neuesten Inhalten auf dem Laufenden.

ByteDance Vidi2: KI, die Videos wie ein professioneller Editor versteht