Multimodal röst-AI
Dokumentation för Voice Tool Suite
Omfattande plattform för text-till-tal och tal-till-text-konvertering med flerspråkigt stöd och avancerade AI-motorer
Text-to-Speech (TTS)
🎙️ Syntesmotorer
Google WaveNet
OpenAI
ElevenLabs
🌍 Språkstöd
220+ röster
40+ språk
Regionala accent
⚙️ Anpassning
- Justerbar talhastighet (x-långsam till x-snabb)
- Kontrollerbara pauser (<break>)
- Uttalsmodulering med SSML
- Realtidsförhandsgranskning
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Tekniska specifikationer
Maximal storlek:
25 MBVaraktighet:
Upp till 4 timmar🧠 Avancerad bearbetning
- Automatisk språkdetektering
- Smart interpunktion
- Talareidentifiering
- Innehållsfiltrering
1
Text-till-tal-arbetsflöde
Grundkonfiguration
- Språkval (🇺🇸 en-US, 🇪🇸 es-ES, osv.)
- Röstval (Alloy, Echo, PalomaNeural)
- Hastighetsjustering (0,8x – 1,5x)
Avancerad anpassning
SSML-taggar:
<prosody rate="fast">Text</prosody>
Pauser:
<break time="500ms"/>
2
Tal-till-text-arbetsflöde
Ljudbearbetning
- Filuppladdning (dra och släpp)
- Asynkron konvertering
- Transkriptionsformatering
Datautmatning
Formaterad text
Kopierat till urklipp
API-integrering
🔧 Tekniska specifikationer
Systemarkitektur
- WaveNet/Neural2 neurala modeller
- REST & gRPC API
- strömning med låg latens
ljudformat
MP3
WAV
OGG
FLAC
AAC
säkerhet
AES-256-kryptering
konfigurerbar dataresidens
användningsgränser
TTS per förfrågan:
5 000 tecken
STT per fil:
25 MB
⚡ API-integration
TTS-slutpunkter
POST /api/v1/tts/generate
{
"text": "text att konvertera",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}