Diese KI-Stimmen klingen echter als echte Menschen ElevenLabs bringt mit Voice Design v3 expressive Stimmen, die flüstern, lachen und Gefühle zeigen. Was steckt wirklich dahinter? Kurzfassung | Andreas Becker, 25.06.25
gpt-image-1 | All-AI.de EINLEITUNG Mit Voice Design v3 hebt ElevenLabs seine Text-zu-Sprache-Technologie auf ein neues Level. Nutzer können nun Stimmen anhand kurzer Beschreibungen erschaffen – mit feinen Abstufungen in Charakter, Akzent, Tempo und Emotion. Die neue Version soll nicht nur realistisch klingen, sondern auch lebendig wirken. Ob grantiger Zwerg aus dem Rollenspiel, energiegeladener Sportreporter oder souveräner Business-Coach – alles soll sich per Textbefehl inszenieren lassen. Doch wie nah kommt das System wirklich an menschliche Sprache heran? Unbedingt kostenlos ausprobieren: Elevenlabs (Affliate Link) NEWS Stimme mit Haltung Das Herzstück von Voice Design v3 ist ein überarbeitetes Sprachmodell, das weit über klassische TTS-Systeme hinausgeht. Nutzer können mit sogenannten Voice-Tags Stimmungen erzeugen, Pausen setzen oder Betonungen gezielt steuern. Die KI-Stimme reagiert dadurch nicht nur flüssig, sondern auch dramaturgisch nachvollziehbar. Ein einfaches „[laughs]“ im Text reicht aus, um ein Lachen glaubhaft zu simulieren. Das Ergebnis sind Stimmen, die wie gesprochene Performances wirken – nicht wie vorgefertigte Samples.
Vielfalt ohne Grenzen Über 70 Sprachen stehen zur Verfügung – samt regionaler Eigenheiten und authentischer Akzentfärbungen. Egal ob australisches Englisch, südamerikanisches Spanisch oder französisches Kanadisch: Die Stimmen klingen zunehmend differenziert. In Kombination mit Altersmerkmalen und emotionaler Dynamik entstehen Figuren, die sich deutlich voneinander abheben. So wird auch der Einsatz in fiktionalen Szenarien, Hörspielen oder Voice-Over-Arbeiten interessant. Interaktive Stimmen für die API Voice Design v3 unterstützt mehrstimmige Szenarien mit flüssigen Übergängen zwischen Charakteren. Entwickler können über ein Interface Dialoge mit mehreren Sprechern planen – inklusive überlappender Beiträge, gezielter Betonungen und spontaner Stimmwechsel. Wer etwa ein interaktives Lernspiel oder ein Storytelling-Format produziert, bekommt damit ein Werkzeug, das Sprachdramaturgie nicht nur imitiert, sondern aktiv mitgestaltet. Die App zum Ton Parallel zur Technologie gibt es nun auch eine mobile App für iOS und Android. Sie bringt Voice Design v3 direkt auf das Smartphone – samt Synchronisation mit dem Desktop-Konto. Außerdem gibt es bis Juni 2025 einen großzügigen Rabatt auf das neue Modell. Damit will ElevenLabs vor allem Kreative, Entwickler und Audio-Produzenten erreichen, die bislang auf klassische Sprecher oder Agenturen angewiesen waren. AUSBLICK Elevenlabs liefert und liefert Die Grenze zwischen Mensch und Maschine verschwimmt weiter – diesmal akustisch. Was früher monoton und steril klang, wird jetzt nuanciert, dynamisch und dialogfähig. Voice Design v3 ist keine simple Textausgabe mehr, sondern ein performatives System, das dramaturgisch mitdenkt. Gerade für Hörbuchstudios, Games oder E-Learning-Plattformen öffnet sich hier eine neue Ebene des Audio-Designs. Wenn künftig jedes Rollenspiel, jede Schulung oder jede Audio-Serie in Sekundenschnelle mit passenden Stimmen besetzt werden kann, wird sich nicht nur der Produktionsprozess verändern – sondern auch die Erwartung an digitale Kommunikation. UNSER ZIEL Wir wollen hauptberuflich über Künstliche Intelligenz berichten und dabei immer besser werden. Du kannst uns auf dem Weg unterstützen! Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube – Kanal PayPal – Kaffee KURZFASSUNG
ElevenLabs hat mit Voice Design v3 ein neues TTS-Modell vorgestellt, das Stimme per Text emotional und ausdrucksstark gestaltet.
Es unterstützt über 70 Sprachen, Akzente und lässt sich per API für mehrstimmige, dynamische Dialoge einsetzen.
Audio-Tags wie „[laughs]“ oder „[angry]“ erzeugen realistische Emotionen direkt im gesprochenen Text.
Die neue mobile App bietet vollen Zugriff auf alle Funktionen, dazu gibt es bis Juni 2025 80 % Rabatt für Entwickler.
QUELLEN
Eleven v3: Beispiele
Eleven v3: Most Expressive AI Text to Speech Model Launched
Introducing the ElevenLabs mobile app
ElevenLabs Launches V3 Voice Model: Supports Over 70 … – AIbase
Introducing Eleven v3 (alpha) — the most expressive Text to Speech model
Quelle: All-AI.de – KI-News, KI-Tutorials, KI-Tools & mehr Weiterlesen