So erstellst du hochwertige KI-generierte UGC-Videos mit Nano Banana Pro und Veo 3.1

Dec 17, 2025

|

Robert W. Schönholz

Tools & Models in diesem Post

Dieser Guide zeigt dir, wie du hochwertige KI-generierte UGC-Videos mit moderner Avatar-Technologie und neuesten Modellen wie Nano Banana Pro und Veo 3.1 erstellst. Lerne, wie du KI-Avatare, realistische Szenen, Voice-Synthesis und Video-Generierung kombinierst, um UGC-ähnliche Videos zu produzieren, die authentisch, nahbar und conversion-fokussiert wirken.

Du verstehst, welche Tools benötigt werden, wie sie zusammenarbeiten und wie du deine Inhalte Schritt für Schritt strukturierst, um starke Ergebnisse für Werbung und organische Inhalte zu erzielen.

Was du lernen wirst

Ein kompletter Workflow zur Erstellung von KI-generierten UGC-Videos, der realistische Avatare, authentische Stimmen, europäische Szenen und professionelles B-Roll mit Nano Banana Pro und Veo 3.1 kombiniert.

Was KI-generierte UGC bedeutet

UGC, also User-Generated Content, imitiert den Stil echter Menschen, die in eine Kamera sprechen und Erfahrungen, Meinungen oder Produktempfehlungen teilen. KI macht es nun möglich, dieses Konzept zu skalieren, indem realistische Avatare, Stimmen und Szenen ohne traditionelle Filmaufnahmen generiert werden.

Das Ziel ist es, den klassischen UGC-Stil zu treffen, bei dem es sich anfühlt wie eine echte Person, die lässig in ihre Handykamera spricht. Mit modernen KI-Tools kannst du dieses authentische Gefühl erzielen und gleichzeitig von Skalierbarkeit, Kosteneffizienz und kreativer Flexibilität profitieren.


⚡ Geschwindigkeit

Erstelle mehrere Variationen in Minuten, nicht Wochen


📈 Skalierbarkeit

Teste viele Variationen ohne teure Produktion


💰 Kosteneffizient

Bruchteil der traditionellen Produktionskosten


🎨 Kreative Flexibilität

Einfach zu iterieren und für verschiedene Zielgruppen anzupassen

Schritt 1: Den richtigen KI-Avatar wählen

Dies ist einer der wichtigsten Teile, da der Avatar das UGC-Gefühl definiert. Der Avatar sollte natürlich, nahbar und nicht übermäßig poliert aussehen. Das Ziel ist es, den klassischen UGC-Stil zu treffen, bei dem es sich anfühlt wie eine echte Person, die lässig in ihre Handykamera spricht.


Worauf du achten solltest

✅ Natürliches, nahbares Aussehen (nicht übermäßig poliert oder corporate)

✅ Möglichkeit, Produkte direkt in die Hände des Avatars zu platzieren, während sie sprechen

✅ Realistische Gesichtsausdrücke und natürliche Bewegungen

Plattformen wie Laria ermöglichen es dir, Avatare auszuwählen, die bereits diesem UGC-Stil folgen. Du kannst sogar Produkte direkt in die Hände des Avatars platzieren, während sie in die Kamera sprechen, was eine authentischere Produktdemonstration schafft.


Avatar-Prompt-Vorlage

Verwende diesen Prompt, um einen authentischen UGC-ähnlichen Avatar zu erstellen:

please create a 23 year old beautiful blonde german female ugc creator. the person must smile towards the camera. she has airpods. her face it lit frontal by diffuse natural light. she wears a dark grey hoodie and a beige trenchcoat. she wears a small black handbag hanging from er shoulder under her arm. she is standing outdoors in hamburg urban city. her teeth are visible while she is speaking. avoid ui or text overlays. avoid humans in the background. in the background is a german pharmacy. she holds a small dji mic lavialier in her hand.

Schritt 2: Ein starkes Skript erstellen

Eine bewährte Struktur ist das klassische Hook-Body-Call-to-Action Framework. Beginne mit einem starken Hook, der sofort Aufmerksamkeit erregt, erkläre dann die Kernbotschaft oder den Nutzen im Body und beende mit einem klaren Call-to-Action.


📝 Skript-Struktur


Hook (erste 3 Sekunden)

Sofortige Aufmerksamkeit mit einer Frage, Aussage oder mutigen Behauptung erzeugen

Body

Erkläre die Kernbotschaft, den Nutzen oder die Geschichte, die deinen Hook unterstützt

Call-to-Action

Klare, direkte Anweisung, was der Zuschauer als Nächstes tun soll


🎙️ Schreibtipps für Voice


Verwende gesprochene Sprache

Schreibe in einem lockeren, gesprächigen Ton statt formaler Schriftsprache

Füge natürliche Füllwörter hinzu

Verwende sparsam Füllwörter wie "äh," "also," oder "weißt du" für mehr Realismus

Betonung wichtiger Wörter

Mit ElevenLabs kannst du Wörter in GROSSBUCHSTABEN schreiben, um natürlich klingende Betonung zu erzeugen

Schritt 3: B-Roll mit Nano Banana Pro generieren

Hier nimmst du das Avatar-Bild und das Produktbild und generierst zusätzliche Szenen, die visuell unterstützen, wovon der Avatar spricht. Diese Szenen können das Produkt in Anwendung zeigen, Nahaufnahmen oder kontextuelle Momente, die die Botschaft verstärken.

B-Roll-Szenentypen

✅ Produkt in Anwendung oder Demonstrationsaufnahmen

✅ Nahaufnahmen, die wichtige Features hervorheben

✅ Kontextuelle Momente (z.B. Produkt in einer europäischen Apotheke oder einem Supermarkt)

✅ Lifestyle-Aufnahmen, die die Produktvorteile verstärken

Dies kann überall dort gemacht werden, wo Nano Banana Pro verfügbar ist. In Laria ist dieser Prozess eng integriert, sodass du B-Roll direkt parallel zu deinen ausgewählten Avataren generieren kannst. Der Hauptvorteil von Nano Banana Pro ist die Fähigkeit, authentische europäische oder deutsche Umgebungen zu schaffen, was deine Inhalte für lokale Zielgruppen nahbarer macht.

Beispiel-Prompt:

please create a close up shot from the side of this womans face having slightly dry skin showing that she has always dry skin when its cold outside.

Beispiel-Prompt:

please let her grab this product out of a shelf inside of the apotheke / Pharmacy. its a b-roll shot

Beispiel-Prompt:

please make a close up shot of her smiling in the camera and holding the product from image 2 next to her face. her face is well hydrated and not dry. promoting the effect of the product.

Schritt 4: Mit Veo 3.1 animieren

Die im vorherigen Schritt erstellten Bilder werden als Eingabebilder verwendet. Mit kurzen, einfachen Prompts kannst du hochwertige animierte B-Roll-Clips generieren. Eine Dauer von etwa vier Sekunden pro Clip ist normalerweise ausreichend. B-Roll muss nicht lang sein, um effektiv zu sein.

🎥 Video-Kompositions-Tipps


Optimales B-Roll-Verhältnis

Verwende ungefähr 80% B-Roll und 20% Avatar-Aufnahmen. Dies hält das Video visuell ansprechend und verhindert, dass der Avatar repetitiv wird.

Clip-Dauer

Ziel: 4 Sekunden pro B-Roll-Clip. Kurze Clips halten das Interesse der Zuschauer aufrecht und schaffen ein dynamisches Tempo.

Zuschauer sind interessierter, wenn sie ständig etwas auf dem Bildschirm passieren sehen. Durch ein hohes B-Roll-Verhältnis erstellst du ein visuell dynamisches Video, das die Aufmerksamkeit über die gesamte Dauer hält.


Beispiel Veo 3.1 Prompt

She grabs the product of the shelf and goes to the right out of the frame to the right. Natural camera movement.


Fertiggestelltes Video-Beispiel

Hier ist ein Beispiel des kompletten Workflows in Aktion, kombiniert mit Avatar, Voice, B-Roll und finalem Schnitt.

Dieses Video demonstriert den kompletten Workflow: KI-Avatar spricht, ElevenLabs Sprachsynthese, Nano Banana Pro B-Roll-Szenen und Veo 3.1 Animation, alles zusammengeschnitten für ein kohärentes UGC-ähnliches Ergebnis.

Fazit & abschließende Gedanken

Mit den richtigen Tools und Struktur kann KI-generiertes UGC echter und effektiver sein als traditionelle Produktionen. Die Kombination aus realistischen Avataren, natürlicher Sprachsynthese, authentischen europäischen Umgebungen (Nano Banana Pro) und hochwertiger Video-Animation (Veo 3.1) schafft einen mächtigen Workflow für skalierbare, kosteneffiziente Content-Erstellung.

In diesem Podcast
sprechen wir über KI im Marketing.

In Second Brain sprechen die Founder von laria, Sebastian und Robert über alles, was modernes KI-Marketing ausmacht: aktuelle News aus der AI-Szene, neue Modelle, praktische Hacks, kreative Prompts, Bild- und Videogenerierung, KI UGC-Automatisierung, Static Ads, Performance-Tricks und vieles mehr.