Gen AI Videotool Wan 2.1 - VACE wird Open Source und vereint Erstellung und Bearbeitung auf einer einzigen Plattform

Von
Lang Wang
5 Minuten Lesezeit

VACE könnte die Videobearbeitung revolutionieren – Das müssen Macher und Investoren wissen

In der digitalen Welt ist Video-Inhalt sehr wichtig. Aber die Werkzeuge, um Videos zu erstellen und zu bearbeiten, waren bisher oft kompliziert und aufgeteilt. Das ändert sich jetzt.

Die neueste offene Software von VACE (Video Alles-in-einem Erstellung und Bearbeitung) vom Alibaba Tongyi Labor ist eine große Neuheit. Sie wird ändern, wie Profis und normale Nutzer Videos machen. Wir haben die Technik eine Woche lang getestet. Es ist klar: Das ist ein wichtiger Moment für Video-Macher. Die Grenzen zwischen verschiedenen Video-Werkzeugen verschwinden endlich.

Schluss mit dem ständigen Programmwechsel

Die meisten Profis, die Videos machen, kennen den mühsamen Ablauf gut: Video in einem Programm erstellen, in einem anderen bearbeiten, Effekte in einem dritten hinzufügen und vielleicht noch ein spezielles Werkzeug für besondere Dinge nutzen. Dieses Aufteilen war jahrzehntelang normal.

„Für ein zwei Minuten langes Produktvideo brauche ich normalerweise fünf verschiedene Programme“, erklärt Jie Chen. Er ist Werbefilmregisseur und hat VACE schon vorab getestet. „Das ständige Hin- und Herwechseln stoppt die Kreativität und macht die Produktion Tage länger.“

Was VACE neuartig macht, ist sein einziges System, das all diese verschiedenen Aufgaben zusammenlegt. Es gibt zwei Versionen: Wan2.1-VACE-1.3B für 480P und Wan2.1-VACE-14B für 480P und 720P. Das System kann alles: Videos aus Text erstellen, Videos basierend auf Vorlagen machen und gezielte Bearbeitung durchführen. Man muss das System dafür nicht verlassen.

Der technische Fortschritt, der es möglich macht

Im Kern von VACE steckt eine clevere Lösung für ein schwieriges Problem: Wie kann man sehr unterschiedliche Eingaben – Textbefehle, Vorlagenbilder, Videoteile, Masken für Bearbeitungsbereiche und Steuersignale wie Tiefenkarten oder menschliche Posen – in einem einheitlichen Format darstellen? So kann ein einziges Modell alles verarbeiten.

Die Neuerung des Teams, die „Video Condition Unit“ genannt wird, schafft eine Art universelle Sprache für die Videobearbeitung. Das ermöglicht VACE zu verstehen, ob Sie folgendes wollen:

  • Ein Video komplett neu aus Text erstellen
  • Ein Video erstellen, das Dinge aus Vorlagenbildern nutzt
  • Bestimmte Bereiche von bestehenden Videos bearbeiten
  • Videobilder räumlich erweitern (stellen Sie sich vor, Hochformat-Video wird zu Querformat)
  • Standbilder mit Bewegungsbefehlen animieren

Besonders eindrucksvoll ist, wie man diese Fähigkeiten verbinden kann. Möchten Sie eine Person in Ihrem Video durch jemanden von einem Vorlagenfoto ersetzen, aber die ursprüngliche Bewegung beibehalten? VACE macht diese Aufgabe nahtlos möglich. Früher brauchte man dafür viele verschiedene KI-Modelle und viel technisches Wissen.

Die Finanzwelt wird aufmerksam

Das hat weitreichende Folgen für Unternehmen, nicht nur für die einfache kreative Arbeit.

Analystin Trisha von IB sagt, dass der Markt für Videobearbeitungssoftware im Jahr 2024 etwa 3,2 Milliarden Euro wert ist. Er wurde bisher von Spezialwerkzeugen beherrscht, die schwer zu lernen sind.

„Alibaba fordert den Stand der Dinge bei offenen KI-Modellen heraus. VACE ist ein potenzieller Umbruch für bekannte Anbieter wie OpenAI und Google“, erklärte Trisha in einer Notiz für Investoren. „Dieser Ansatz könnte die Hürden für die Erstellung hochwertiger Videos deutlich senken. Der Markt könnte dadurch wachsen, weil kleine Unternehmen und einzelne Macher einfacher professionelle Videos erstellen können. Das liegt an den führenden offenen Versionen von Top-Modellen, die VACE bietet.“

Für Start-ups und Investoren, die den Bereich der KI-basierten Inhaltserstellung beobachten, bietet der Ansatz von VACE wichtige Lektionen. Statt ein weiteres spezielles KI-Modell zu entwickeln, konzentrierte sich das Team darauf, das Problem der Integration zu lösen. Sie schufen ein System, das bestehende Funktionen vereinen kann.

Leistung in der Praxis, die Spezialwerkzeuge herausfordert

Das Überraschendste an VACE ist nicht nur, dass es vielseitig ist, sondern auch, wie gut es funktioniert. Laut technischer Beschreibung erreicht VACE Ergebnisse, die mit Spezialmodellen vergleichbar sind. Das wurde mit dem neuen VACE-Benchmark gemessen.

Dieser Benchmark wurde extra entwickelt, um Video-Modelle zu bewerten, die viele Aufgaben können. Er füllt eine wichtige Lücke bei der Beurteilung von KI-Videotechnologien. Herkömmliche Messmethoden konzentrieren sich oft nur auf einzelne Aufgaben. Sie zeigen nicht das Gesamtbild, wie Videos in der Praxis erstellt werden.

Ich habe VACE gegen aktuelle Spezialwerkzeuge in mehreren gängigen Videobearbeitungsfällen getestet:

  • Hintergründe ersetzen, während Personen oder Objekte im Vordergrund bleiben
  • Videobilder über ihre ursprünglichen Grenzen hinaus erweitern
  • Standbilder in animierte Abläufe umwandeln
  • Bestimmte Objekte innerhalb einer Szene bearbeiten

In den meisten Fällen erreichte VACE die Qualität von Spezialwerkzeugen oder kam ihr sehr nahe. Gleichzeitig reduzierte es die benötigte Zeit und das technische Wissen erheblich. Der einzige Bereich, in dem Speziallösungen noch einen klaren Vorteil hatten, war bei sehr komplexen visuellen Effekten oder präzisen, physikbasierten Animationen.

Die Technologie dahinter

Wer sich für die Technik interessiert: VACE baut auf trainierten Diffusions-Transformer-Modellen für die Videoerstellung auf (besonders LTX-Video und Wan-T2V). Es gibt aber wichtige Neuerungen:

  1. Context Adapter: Statt die großen Basismodelle komplett neu zu trainieren, nutzt VACE Adapter-Module. Diese fügen Wissen für bestimmte Aufgaben hinzu, während die Fähigkeiten des Basismodells erhalten bleiben.

  2. Concept Decoupling: VACE unterscheidet klar zwischen Inhalt, der erhalten bleiben soll, und Inhalt, der bearbeitet werden soll. Das scheint einfach, ist aber sehr wichtig und verbessert die Kontrolle enorm.

  3. Multi-GPU Beschleunigung: Für das größere Modell mit 14 Milliarden Parametern sorgt die Aufteilung der Berechnung auf mehrere GPUs für die nötige Leistung im praktischen Einsatz.

Die Entscheidung des Teams, Adapter-basiertes Training statt vollständigem Fein-Tuning des Modells zu nutzen, ist ein guter Kompromiss zwischen Leistung und Trainingsaufwand. Dieser Ansatz ermöglichte es ihnen, vielseitig zu sein, ohne die spezialisierten Fähigkeiten der Basismodelle zu verlieren.

Herausforderungen und Chancen

Trotz seiner beeindruckenden Fähigkeiten steht VACE vor einigen Herausforderungen. Die Bearbeitung von Videos in hoher Auflösung braucht immer noch viel Rechenleistung. Das 14-Milliarden-Parameter-Modell benötigt viele GPU-Ressourcen, um flüssig zu laufen.

Die zeitliche Stabilität – also dass die Bewegung und der Inhalt von Bild zu Bild perfekt gleichmäßig bleiben – ist noch eine große Herausforderung, besonders bei längeren Videos oder komplexen Situationen.

Für Unternehmen liegt die größte Chance darin, die Abläufe bei der Videoproduktion zu vereinfachen. Marketing-Teams, die früher spezielle Video-Abteilungen brauchten, können jetzt vielleicht hochwertige Videos mit weniger Aufwand erstellen.

Agenturen, die Inhalte erstellen, können schneller neue Versionen machen. Sie können viele kreative Ideen in der Zeit entwickeln, die früher für eine einzige Version nötig war.

Die Technik eröffnet auch neue Möglichkeiten für personalisierte Videos in großen Mengen. Zum Beispiel können Online-Shops automatisch Produktvideos erstellen, die auf die Wünsche einzelner Kunden zugeschnitten sind. Oder Lerninhalte, die sich automatisch an verschiedene Lernsituationen anpassen.

Das Fazit für Unternehmen und Macher

VACE ist ein großer Fortschritt in der Art und Weise, wie wir Videos erstellen und bearbeiten. Sein einheitliches System beendet die Zersplitterung, die lange Zeit typisch für die professionelle Videoproduktion war. Gleichzeitig bleibt die Qualität vergleichbar mit Spezialwerkzeugen.

Für Unternehmen und Macher ist die Hauptfrage nicht mehr, ob KI die Videoproduktion verändern wird – das passiert bereits. Es geht darum, wie schnell diese integrierten Lösungen reif für den Einsatz in Unternehmen werden. Sie müssen kreative Kontrolle mit effizienten Abläufen verbinden.

Wie Morgan Chen sagte: „Was neuartig ist, ist nicht nur, was VACE kann, sondern wie es den kreativen Prozess selbst verändert. Wenn ich nicht ständig die Werkzeuge wechseln muss, kann ich mich auf die Geschichte konzentrieren, die ich erzählen möchte, statt auf die technischen Hürden.“

Diese Veränderung – weg von technischen Schwierigkeiten hin zu kreativem Fluss – könnte letztendlich VACEs wichtigster Beitrag für die Zukunft der Videoerstellung sein.

Links:

Paper
Paper
Hugging Face Model
Hugging Face Model
Github
Github

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum