Multimodale Sprach-KI
Dokumentation der Voice-Tool-Suite
Umfassende Plattform für Text-zu-Sprache und Sprache-zu-Text mit mehrsprachiger Unterstützung und fortschrittlichen KI-Engines
Text-to-Speech (TTS)
🎙️ Synthese-Engines
Google WaveNet
OpenAI
ElevenLabs
🌍 Sprachunterstützung
220+ Stimmen
40+ Sprachen
Regionale Akzente
⚙️ Personalisierung
- Einstellbare Sprechgeschwindigkeit (x-langsam bis x-schnell)
- Steuerbare Pausen (<break>)
- Aussprachemodulation mit SSML
- Echtzeitvorschau
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Technische Spezifikationen
Maximale Größe:
25 MBDauer:
Bis zu 4 Stunden🧠 Erweiterte Verarbeitung
- Automatische Spracherkennung
- Intelligente Zeichensetzung
- Sprechererkennung
- Inhaltsfilterung
1
Text-zu-Sprache-Workflow
Grundkonfiguration
- Sprachauswahl (🇺🇸 en-US, 🇪🇸 es-ES usw.)
- Stimmenauswahl (Alloy, Echo, PalomaNeural)
- Geschwindigkeitsanpassung (0,8x – 1,5x)
Erweiterte Anpassung
SSML-Tags:
<prosody rate="fast">Text</prosody>
Pausen:
<break time="500ms"/>
2
Sprache-zu-Text-Workflow
Audioverarbeitung
- Datei-Upload (Drag & Drop)
- Asynchrone Konvertierung
- Transkriptionsformatierung
Datenausgabe
Formatierten Text
In die Zwischenablage kopiert
API-Integration
🔧 Technische Spezifikationen
Systemarchitektur
- WaveNet/Neural2-Neuronenmodelle
- REST & gRPC API
- Streaming mit niedriger Latenz
Audioformate
MP3
WAV
OGG
FLAC
AAC
Sicherheit
AES-256-Verschlüsselung
konfigurierbare Datenresidenz
Nutzungslimits
TTS pro Anfrage:
5.000 Zeichen
STT pro Datei:
25 MB
⚡ API-Integration
TTS-Endpunkte
POST /api/v1/tts/generate
{
"text": "Text zum Konvertieren",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}