Multimodale Sprach-KI

Dokumentation der Voice-Tool-Suite

Umfassende Plattform für Text-zu-Sprache und Sprache-zu-Text mit mehrsprachiger Unterstützung und fortschrittlichen KI-Engines

Text-to-Speech (TTS)

🎙️ Synthese-Engines

Google WaveNet
OpenAI
ElevenLabs

🌍 Sprachunterstützung

220+ Stimmen 40+ Sprachen Regionale Akzente

⚙️ Personalisierung

  • Einstellbare Sprechgeschwindigkeit (x-langsam bis x-schnell)
  • Steuerbare Pausen (<break>)
  • Aussprachemodulation mit SSML
  • Echtzeitvorschau

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Technische Spezifikationen

Maximale Größe:

25 MB

Dauer:

Bis zu 4 Stunden

🧠 Erweiterte Verarbeitung

  • Automatische Spracherkennung
  • Intelligente Zeichensetzung
  • Sprechererkennung
  • Inhaltsfilterung
1

Text-zu-Sprache-Workflow

Grundkonfiguration

  1. Sprachauswahl (🇺🇸 en-US, 🇪🇸 es-ES usw.)
  2. Stimmenauswahl (Alloy, Echo, PalomaNeural)
  3. Geschwindigkeitsanpassung (0,8x – 1,5x)

Erweiterte Anpassung

SSML-Tags:

<prosody rate="fast">Text</prosody>

Pausen:

<break time="500ms"/>
2

Sprache-zu-Text-Workflow

Audioverarbeitung

  • Datei-Upload (Drag & Drop)
  • Asynchrone Konvertierung
  • Transkriptionsformatierung

Datenausgabe

Formatierten Text
In die Zwischenablage kopiert
API-Integration

🔧 Technische Spezifikationen

Systemarchitektur

  • WaveNet/Neural2-Neuronenmodelle
  • REST & gRPC API
  • Streaming mit niedriger Latenz

Audioformate

MP3 WAV OGG FLAC AAC

Sicherheit

AES-256-Verschlüsselung
konfigurierbare Datenresidenz

Nutzungslimits

TTS pro Anfrage: 5.000 Zeichen
STT pro Datei: 25 MB

⚡ API-Integration

TTS-Endpunkte

POST /api/v1/tts/generate { "text": "Text zum Konvertieren", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }