EMAX Studio Blog

KI-Auto-Untertitel für Video-Reels: Schriften, Stile, Größen

Manuel Mrosek · 2026-05-02 · Aufrufe

KI-Auto-Untertitel machen Video-Reels zugänglich und ansprechend

KI-Auto-Untertitel verwenden Wort-Level-Timestamps von Text-to-Speech-Engines, um perfekt getimte Untertitel auf Video-Reels einzublenden. Jedes Wort erscheint genau dann, wenn es gesprochen wird, mit anpassbaren Schriften, Stilen, Größen und Farben — kein manuelles Timing oder Untertitel-Editing nötig.

Das ist wichtig, weil 85% der Social-Media-Videos ohne Ton geschaut werden. Untertitel sind nicht optional — sie sind der Unterschied zwischen jemandem, der an deinem Reel vorbeiscrollt, und jemandem, der es tatsächlich anschaut. Die besten Untertitel-Systeme gehen über einfache Untertitel hinaus, indem sie Wörter in Echtzeit hervorheben, deine Markenfarben verwenden und kreative Kontrolle darüber geben, wie Text auf dem Bildschirm erscheint. Untertitel sind ein zentraler Bestandteil des kompletten AI-Video-Reel-Prozesses.

Wie Wort-Level-Timestamps funktionieren

Traditionelle Untertitel-Systeme arbeiten mit Satz-Level-Timing. Ein Satz erscheint, bleibt 3 Sekunden, dann kommt der nächste. Das wirkt statisch und passt nicht dazu, wie Menschen sprechen.

Wort-Level-Timestamps sind anders. Die Text-to-Speech-Engine zeichnet exakt auf, wann jedes Wort beginnt und endet — auf die Millisekunde genau. Das bedeutet:

  • Wörter erscheinen einzeln, wie sie gesprochen werden
  • Das aktuelle Wort wird in deiner Markenfarbe hervorgehoben
  • Vorherige Wörter bleiben für den Kontext sichtbar
  • Das Timing fühlt sich natürlich an und passt zum Sprachrhythmus

Das v3-Modell von ElevenLabs generiert diese Timestamps automatisch als Teil der Sprachgenerierung. Kein zusätzlicher Verarbeitungsschritt, keine manuelle Ausrichtung.

Das ASS-Untertitelformat

Die meisten Untertitel-Tools verwenden SRT (SubRip) — reiner Text mit einfachem Timing. EMAX Studio verwendet ASS (Advanced SubStation Alpha) Untertitel, die unterstützen:

| Funktion | SRT | ASS |
| Schriftauswahl | Nein | Ja |
| Schriftgrößenkontrolle | Nein | Ja |
| Farbe und Hervorhebung | Nein | Ja |
| Hintergrund-Pills/Boxen | Nein | Ja |
| Schatten und Umrandung | Nein | Ja |
| Positionierung auf dem Bildschirm | Eingeschraenkt | Volle Kontrolle |
| Wort-für-Wort-Hervorhebung | Nein | Ja |

ASS-Untertitel werden von ffmpeg in einem Durchgang gerendert, was bedeutet:

  • Kein Bild-pro-Frame-Rendering (das bei 10.000+ Frames versagt)
  • Funktioniert für jede Videolänge — 15-Sekunden-Reels oder 10-Minuten-Langformate
  • Kein Qualitätsverlust durch Overlay-Compositing
  • Konsistentes Rendering auf allen Plattformen

5 Untertitel-Schriften

Jede Schrift erzeugt eine andere visuelle Persönlichkeit für deine Reels:

Inter

Die Standardwahl. Sauber, modern, hochgradig lesbar in allen Größen. Funktioniert für jede Branche und jeden Ton. Wenn du unsicher bist, wähle Inter.

  • Am besten für: Professionellen Content, Business-Reels, Coaching, SaaS
  • Charakter: Neutral, vertrauenswürdig, sauber
  • Lesbarkeit: Ausgezeichnet in allen Größen

Montserrat

Geometrische Sans-Serif mit Charakter. Etwas markanter als Inter, ohne die Lesbarkeit zu opfern. Beliebt bei Fitness-, Lifestyle- und Kreativmarken.

  • Am besten für: Lifestyle-Marken, Fitness, Kreativagenturen, Personal Brands
  • Charakter: Modern, zugänglich, freundlich
  • Lesbarkeit: Ausgezeichnet

Bebas Neue

Grossbuchstaben-Display-Schrift. Hoher Impact, unmöglich zu übersehen. Erzeugt einen kräftigen, aufmerksamkeitsstarken Look, der bei Kurzform-Content gut funktioniert, wenn du den Scroll stoppen musst.

  • Am besten für: Impact-Content, Ankündigungen, Sport, Unterhaltung
  • Charakter: Fett, kommandierend, laut
  • Lesbarkeit: Gut für kurze Phrasen, weniger ideal für lange Saetze

Poppins

Abgerundete geometrische Sans-Serif. Weicher als Inter, mehr Persönlichkeit als einfache Sans-Serifs. Die erste Wahl für Marken, die zugänglich und warm wirken wollen.

  • Am besten für: Bildung, Wellness, Food, familienorientierte Marken
  • Charakter: Warm, freundlich, einladend
  • Lesbarkeit: Ausgezeichnet

Oswald

Schmale Sans-Serif. Hohe, schmale Buchstaben, die mehr Text pro Zeile unterbringen. Funktioniert gut bei längeren Untertiteltexten oder wenn man einen News-/Editorial-Look möchte.

  • Am besten für: News-artigen Content, Editorial, informationslastige Reels
  • Charakter: Seriös, informativ, editorial
  • Lesbarkeit: Gut, besonders für Headlines

3 Untertitel-Stile

Modern-Stil

Die beliebteste Wahl. Wörter erscheinen in abgerundeten pillenförmigen Hintergründen. Das aktuell gesprochene Wort wird in deiner Markenfarbe hervorgehoben, während andere Wörter in Weiss oder Hellgrau erscheinen.

Technische Details:
- Wortgruppen von 3 (optimal für Lesegeschwindigkeit)
- Mittleres Wort in Markenfarbe hervorgehoben
- Halbtransparenter Hintergrund-Pill hinter jeder Wortgruppe
- Subtiler Glow-Schatten für Lesbarkeit auf jedem Hintergrund
- Sanfte Überblendungen zwischen Wortgruppen

Visueller Effekt: Sauber, professionell, Instagram-ready. Das ist, was du auf den meisten beliebten Creator-Reels 2026 siehst.

Bold-Stil

Maximale Sichtbarkeit. Grosser Text mit dicken Umrandungen und starken Schatten. Nichts Subtiles — dieser Stil stellt sicher, dass deine Untertitel auf jedem Hintergrund lesbar sind, auch bei geschäftigem Videomaterial.

Technische Details:
- Dicke Umrandung (3-4px) in Kontrastfarbe
- Starker Schlagschatten für Tiefe
- Leicht größere Schrift als angegeben (automatischer 10%-Boost)
- Kein Hintergrund-Pill — die Umrandung sorgt für Trennung

Visueller Effekt: YouTube-artige Untertitel, die herausstechen. Grossartig für Content, bei dem der Video-Hintergrund visuell komplex ist.

Minimal-Stil

Weniger ist mehr. Weisser Text mit einem subtilen Schatten. Keine Hintergründe, keine Pills, keine Umrandungen. Die Untertitel existieren, konkurrieren aber nicht mit dem Video.

Technische Details:
- Nur weisser Text
- Weicher Schlagschatten (2px Offset, 50% Opazität)
- Keine Hintergrundelemente
- Standard-Schriftgröße wie angegeben

Visueller Effekt: Elegant, dezent, cinematic. Funktioniert am besten mit sauberen Video-Hintergründen oder Farbverläufen — besonders mit Cinematic AI Reels.

3 Untertitel-Größen

| Größe | Pixel | Am besten für |
| Klein | 42px | Querformat (16:9) Videos, informationsdichter Content |
| Normal | 52px | Allzweck, ausgewogene Lesbarkeit und Platz |
| Gross | 66px | Hochformat (9:16) Reels, Impact-Content, Mobile-first |

Die Größenauswahl hängt vom Videoformat ab:

  • Hochformat-Reels (9:16): Normal oder Gross. Das vertikale Format hat mehr vertikalen Platz, größerer Text funktioniert gut.
  • Querformat-Videos (16:9): Klein oder Normal. Horizontales Format hat begrenzten vertikalen Platz — grosser Text kann das Bild überwaeltigen. Kombiniere mit KI-generierten YouTube-Metadaten für SEO-optimierte Uploads.
  • Quadratisch (1:1): Normal funktioniert am besten. Ausgewogenes Format, ausgewogene Größe.

Untertitel-Position

Drei Positionen verfügbar:

Oberes Drittel

Untertitel erscheinen im oberen Bereich des Videos. Nützlich wenn:
- Dein Motiv im unteren Teil des Bildes ist
- Du Untertitel über einer Produktdemonstration willst
- Das Video wichtige visuelle Elemente unten hat

Mitte

Standardposition. Untertitel erscheinen in der Mitte des Bildschirms. Funktioniert für:
- Die meisten allgemeinen Inhalte
- Talking-Head-Videos (Untertitel unter dem Gesicht)
- Wenn keine spezielle Positionierung nötig ist

Unteres Drittel

Untertitel erscheinen nahe dem unteren Rand. Die häufigste Position für:
- Traditionelle Untertitelplatzierung
- Wenn der obere Bildbereich wichtige visuelle Elemente hat
- News-artige oder editoriale Inhalte

Wichtig: Das Hook-Overlay (Markenlogo + Headline in den ersten 4 Sekunden) passt seine Position automatisch an deine Untertitel-Position an. Wenn Untertitel unten sind, bewegt sich der Hook nach oben — und umgekehrt. Keine Überlappung.

Live-Vorschau vor dem Rendern

Eine der wichtigsten Funktionen: Du siehst genau, wie deine Untertitel aussehen werden, bevor du Credits fürs Rendern ausgibst.

Die Live-Vorschau im Kampagnen-Setup zeigt:
- Deine ausgewählte Schrift auf einem Beispiel-Hintergrund gerendert
- Den exakten Stil (Modern/Bold/Minimal) mit echten Effekten
- Die Größe relativ zum Videoframe
- Deine Markenfarbe auf dem Hervorhebungswort angewandt

Diese Vorschau verwendet CSS-Filter, um das Untertitel-Erscheinungsbild zu simulieren. Es ist kein pixelgenaues Match (das finale Rendering verwendet ffmpegs ASS-Renderer), aber nahe genug, um sichere Entscheidungen zu treffen.

Wie Untertitel generiert werden: Der technische Ablauf

  1. Sprachgenerierung: ElevenLabs v3 generiert die Sprachausgabe aus dem Reel-Script. Zusammen mit dem Audio (MP3) liefert es Wort-Level-Timestamps im JSON-Format — jedes Wort mit Startzeit und Endzeit in Millisekunden.

  2. Wort-Gruppierung: Wörter werden in 3er-Gruppen zusammengefasst. Das ist die optimale Lesegeschwindigkeit für Untertitel — schnell genug, um mit der Sprache Schritt zu halten, langsam genug zum bequemen Lesen. Zum Beispiel: "Verwandle dein | Marketing mit | KI-gestützten Tools" (3 Gruppen zu 3 Wörtern).

  3. ASS-Dateigenerierung: Der Untertitel-Renderer konvertiert Wortgruppen und Timestamps in eine ASS-Untertiteldatei. Jede Wortgruppe bekommt:
    - Start- und Endzeit aus den Timestamps
    - Schrift, Größe und Stil aus deinen Einstellungen
    - Markenfarbe auf das mittlere (hervorgehobene) Wort angewandt
    - Positionskoordinaten basierend auf deiner gewählten Position

  4. ffmpeg-Rendering: ffmpeg rendert die ASS-Untertitel direkt auf das Video in einem Durchgang. Das ist der zentrale technische Vorteil — ASS-Rendering skaliert auf jede Videolänge ohne die Frame-für-Frame-PNG-Limitierung, die andere Untertitel-Systeme bei Skalierung zum Scheitern bringt.

Untertitel-Sprachunterstützung

Untertitel funktionieren in allen 12 unterstützten Sprachen:

| Sprache | Schrift | Richtung | Hinweise |
| Englisch | Lateinisch | LTR | Standard, alle Schriften funktionieren |
| Deutsch | Lateinisch | LTR | Verarbeitet Umlaute (ae, oe, ue) |
| Spanisch | Lateinisch | LTR | Verarbeitet Akzente (a, e, n) |
| Französisch | Lateinisch | LTR | Verarbeitet Akzente (e, e, e) |
| Portugiesisch | Lateinisch | LTR | Verarbeitet Akzente (a, c) |
| Italienisch | Lateinisch | LTR | Verarbeitet Akzente (a, e) |
| Japanisch | CJK | LTR | Erfordert CJK-Schrift-Fallback |
| Koreanisch | Hangul | LTR | Erfordert Hangul-Schrift-Fallback |
| Chinesisch | CJK | LTR | Erfordert CJK-Schrift-Fallback |
| Arabisch | Arabisch | RTL | Rechts-nach-Links-Rendering |
| Hindi | Devanagari | LTR | Erfordert Devanagari-Fallback |
| Türkisch | Lateinisch | LTR | Verarbeitet Sonderzeichen (s, g, i) |

Für CJK-Sprachen (Japanisch, Koreanisch, Chinesisch) fällt der ASS-Renderer auf Systemschriften zurück, die diese Zeichensätze unterstützen. Die gewählte Untertitel-Schrift gilt weiterhin für lateinische Zeichen im Text.

Tipps für bessere Untertitel

Schrift zum Content passend wählen

Verwende nicht Bebas Neue (Grossbuchstaben-Impact-Schrift) für ein ruhiges Meditationsvideo. Verwende nicht Poppins (weich, freundlich) für einen harten Sales-Pitch. Die Schrift sollte zur Energie deines Contents passen.

Normal-Größe für die meisten Inhalte verwenden

Gross ist verlockend, nimmt aber erheblichen Bildschirmplatz ein. Normal (52px) ist auf Mobiltelefonen lesbar (wo die meisten Reels geschaut werden), ohne das Visuelle zu überwaeltigen.

Modern-Stil ist die sichere Wahl

Wenn du Content für Kunden erstellst oder nicht sicher bist, welchen Stil du wählen sollst, ist Modern mit deiner Markenfarben-Hervorhebung die universell ansprechendste Option. Es ist das, was Zuschauer 2026 von professionellen Reels erwarten.

Position gegen dein Video prüfen

Wenn du hochgeladenes Video verwendest (keine KI-generierten Hintergründe), prüfe wo die wichtigen visuellen Elemente sind. Ein Talking-Head-Video braucht Untertitel unter dem Gesicht — nicht darüber.

Markenfarben-Kontrast

Deine Markenfarbe muss mit weissem Text kontrastieren. Ein helles Gelb (#FFFF00) als Markenfarbe funktioniert nicht gut als Hervorhebung gegen weisse Wörter. Dunklere, gesättigte Farben (tiefes Blau, Rot, Lila, Grün) erzeugen den besten Kontrast.

Mit Auto-Untertiteln starten

  1. Kostenlos anmelden bei EMAX Studio
  2. Kampagne erstellen und Reels auswählen
  3. Im Reel-Einstellungspanel konfigurieren:
    - Untertitel-Schrift (Inter, Montserrat, Bebas Neue, Poppins, Oswald)
    - Untertitel-Größe (Klein, Normal, Gross)
    - Untertitel-Stil (Modern, Bold, Minimal)
    - Untertitel-Position (Oberes Drittel, Mitte, Unteres Drittel)
  4. Live-Vorschau prüfen
  5. Kampagne generieren

Untertitel sind bei jedem Reel inklusive — keine Extra-Credits. 1 Reel kostet 3 Credits (Voice + Video + Untertitel inklusive).

Häufig gestellte Fragen

Kann ich Untertitel bei einem Reel deaktivieren?

Ja. Der Untertitel-Toggle kann während des Kampagnen-Setups ausgeschaltet werden. Du bekommst ein Reel mit Voice und Video, aber ohne Text-Overlay.

Funktionieren Untertitel mit hochgeladenen Videos?

Ja. Ob dein Reel KI-generierte Foto-Hintergründe oder dein eigenes hochgeladenes Video verwendet, Untertitel werden mit dem gleichen ASS-Untertitel-System darüber gerendert.

Kann ich den Untertiteltext nach der Generierung bearbeiten?

Der Untertiteltext kommt direkt aus dem Reel-Script, das die KI generiert. Du kannst einzelne UntertitelWörter nach dem Rendern nicht bearbeiten, aber du kannst das Reel mit einem geänderten Script neu generieren.

Welcher Untertitel-Stil funktioniert am besten für Instagram Reels?

Modern-Stil mit Normal-Größe ist die beliebteste Kombination für Instagram Reels. Das Wort-Pill-Design mit Markenfarben-Hervorhebung passt zur Ästhetik, die Instagram-Nutzer erwarten.

Erhöhen Untertitel die Rendering-Zeit?

Minimaler Einfluss. ASS-Untertitel-Rendering ist ein einzelner ffmpeg-Durchgang, der 2-5 Sekunden zur gesamten Rendering-Zeit hinzufügt. Es ist die schnellste verfügbare Untertitel-Rendering-Methode.


Folge EMAX Studio: Instagram | YouTube | Facebook

Teilen:

Bereit, deine eigenen KI-Video-Reels zu erstellen?

5 kostenlose Credits. Keine Kreditkarte nötig.

Jetzt kostenlos erstellen