Multimodale stem-AI
Documentatie van de Voice Tool Suite
Uitgebreid platform voor tekst-naar-spraak en spraak-naar-tekst conversie met meertalige ondersteuning en geavanceerde AI-engines
Text-to-Speech (TTS)
🎙️ Synthese-engines
Google WaveNet
OpenAI
ElevenLabs
🌍 Taalondersteuning
220+ stemmen
40+ talen
Regionale accenten
⚙️ Personalisatie
- Aanpasbare spreeksnelheid (x-langzaam tot x-snel)
- Bestuurbare pauzes (<break>)
- Uitspraakmodulatie met SSML
- Realtime voorbeeldweergave
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Technische specificaties
Maximale grootte:
25 MBDuur:
Tot 4 uur🧠 Geavanceerde verwerking
- Automatische taalherkenning
- Slimme interpunctie
- Sprekerherkenning
- Contentfiltering
1
Tekst-naar-spraakwerkstroom
Basisconfiguratie
- Taalkeuze (🇺🇸 en-US, 🇪🇸 es-ES, enz.)
- Stemkeuze (Alloy, Echo, PalomaNeural)
- Snelheidsaanpassing (0,8x – 1,5x)
Geavanceerde aanpassing
SSML-tags:
<prosody rate="fast">Text</prosody>
Pauzes:
<break time="500ms"/>
2
Spraak-naar-tekstwerkstroom
Audiobewerking
- Bestandsupload (drag & drop)
- Asynchrone conversie
- Transcriptie-opmaak
Data-uitvoer
Opgemaakte tekst
Gekopieerd naar klembord
API-integratie
🔧 Technische specificaties
Systeemarchitectuur
- WaveNet/Neural2 neurale modellen
- REST & gRPC API
- streamen met lage latentie
audioformaten
MP3
WAV
OGG
FLAC
AAC
beveiliging
AES-256-encryptie
configurabele datalokatie
gebruiksbeperkingen
TTS per aanvraag:
5.000 tekens
STT per bestand:
25 MB
⚡ API-integratie
TTS-eindpunten
POST /api/v1/tts/generate
{
"text": "tekst om te converteren",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}