Text-to-Speech (TTS)
Definition:
Text-to-Speech (TTS) bezeichnet eine Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. Mithilfe von Künstlicher Intelligenz und Sprachsynthese können TTS-Systeme natürliche Stimmen erzeugen, die menschlicher Sprache sehr nahekommen.
Wie funktioniert Text-to-Speech?
TTS-Systeme analysieren den eingegebenen Text, zerlegen ihn in sprachliche Einheiten und wandeln diese anschließend mithilfe neuronaler Netze in Audio um. Moderne KI-Modelle wie WaveNet oder Neural TTS erzeugen Stimmen, die flüssig, ausdrucksstark und fast nicht mehr von menschlichen Stimmen zu unterscheiden sind.
Einsatzgebiete von TTS:
- Barrierefreiheit: Vorlesefunktion für sehbehinderte Menschen oder Leseschwache
- Kundensupport: Telefonassistenten oder Chatbots mit Sprachausgabe
- Bildung: Vorlesen von Lerninhalten, Sprachtraining oder E‑Learning-Plattformen
- Medien und Unterhaltung: Hörbücher, Games oder virtuelle Charaktere
Vorteile von Text-to-Speech:
- Verbessert die Zugänglichkeit digitaler Inhalte
- Spart Zeit und Kosten für Sprachaufnahmen
- Unterstützt mehrsprachige Anwendungen durch unterschiedliche Stimmen und Akzente
Unterschied zwischen TTS und Speech-to-Text (STT)
- TTS (Text-to-Speech): Wandelt Text in Sprache um → vom geschriebenen Wort zur Audioausgabe.
- STT (Speech-to-Text): Wandelt gesprochene Sprache in Text um → vom gesprochenen Wort zur Schriftform.
- Beispiel: Ein Chatbot mit TTS kann Antworten vorlesen, während ein STT-System die Eingaben des Nutzers versteht.
Verwandte Begriffe:
- Sprachsynthese
- Neural TTS
- Speech-to-Text (STT)
- Sprachassistent