Multimodal Voice AI
Dokumentation til Voice Tool Suite
Omfattende platform til tekst-til-tale og tale-til-tekst konvertering med flersproget support og avancerede AI-motorer
Text-to-Speech (TTS)
🎙️ Syntesemotorer
Google WaveNet
OpenAI
ElevenLabs
🌍 Sprogunderstøttelse
220+ stemmer
40+ sprog
Regionale accenter
⚙️ Tilpasning
- Justerbar taletakt (x-slow til x-fast)
- Kontrollerbare pauser (<break>)
- Udtaleforandring med SSML
- Realtidsforhåndsvisning
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Tekniske specifikationer
Maksimal størrelse:
25 MBVarighed:
Op til 4 timer🧠 Avanceret behandling
- Automatisk sprogdetektering
- Smart tegnsætning
- Højttaleridentifikation
- Indholdsfiltrering
1
Tekst-til-tale arbejdsgang
Grundlæggende konfiguration
- Valg af sprog (🇺🇸 en-US, 🇪🇸 es-ES, osv.)
- Stemmevalg (Alloy, Echo, PalomaNeural)
- Hastighedsjustering (0,8x – 1,5x)
Avanceret tilpasning
SSML-tags:
<prosody rate="fast">Text</prosody>
Pauser:
<break time="500ms"/>
2
Tale-til-tekst arbejdsgang
Lydbehandling
- Filupload (træk og slip)
- Asynkron konvertering
- Transskriptionsformatering
Dataoutput
Formateret tekst
Kopieret til udklipsholder
API-integration
🔧 Tekniske specifikationer
Systemarkitektur
- WaveNet/Neural2 neurale modeller
- REST & gRPC API
- lav-latens streaming
lydformater
MP3
WAV
OGG
FLAC
AAC
sikkerhed
AES-256-kryptering
konfigurerbar dataresidens
brugsgrænser
TTS pr. anmodning:
5.000 tegn
STT pr. fil:
25 MB
⚡ API-integration
TTS-endepunkter
POST /api/v1/tts/generate
{
"text": "tekst til konvertering",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}