Multimodale stem-AI

Documentatie van de Voice Tool Suite

Uitgebreid platform voor tekst-naar-spraak en spraak-naar-tekst conversie met meertalige ondersteuning en geavanceerde AI-engines

Text-to-Speech (TTS)

🎙️ Synthese-engines

Google WaveNet
OpenAI
ElevenLabs

🌍 Taalondersteuning

220+ stemmen 40+ talen Regionale accenten

⚙️ Personalisatie

  • Aanpasbare spreeksnelheid (x-langzaam tot x-snel)
  • Bestuurbare pauzes (<break>)
  • Uitspraakmodulatie met SSML
  • Realtime voorbeeldweergave

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Technische specificaties

Maximale grootte:

25 MB

Duur:

Tot 4 uur

🧠 Geavanceerde verwerking

  • Automatische taalherkenning
  • Slimme interpunctie
  • Sprekerherkenning
  • Contentfiltering
1

Tekst-naar-spraakwerkstroom

Basisconfiguratie

  1. Taalkeuze (🇺🇸 en-US, 🇪🇸 es-ES, enz.)
  2. Stemkeuze (Alloy, Echo, PalomaNeural)
  3. Snelheidsaanpassing (0,8x – 1,5x)

Geavanceerde aanpassing

SSML-tags:

<prosody rate="fast">Text</prosody>

Pauzes:

<break time="500ms"/>
2

Spraak-naar-tekstwerkstroom

Audiobewerking

  • Bestandsupload (drag & drop)
  • Asynchrone conversie
  • Transcriptie-opmaak

Data-uitvoer

Opgemaakte tekst
Gekopieerd naar klembord
API-integratie

🔧 Technische specificaties

Systeemarchitectuur

  • WaveNet/Neural2 neurale modellen
  • REST & gRPC API
  • streamen met lage latentie

audioformaten

MP3 WAV OGG FLAC AAC

beveiliging

AES-256-encryptie
configurabele datalokatie

gebruiksbeperkingen

TTS per aanvraag: 5.000 tekens
STT per bestand: 25 MB

⚡ API-integratie

TTS-eindpunten

POST /api/v1/tts/generate { "text": "tekst om te converteren", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }