Multimodal röst-AI

Dokumentation för Voice Tool Suite

Omfattande plattform för text-till-tal och tal-till-text-konvertering med flerspråkigt stöd och avancerade AI-motorer

Text-to-Speech (TTS)

🎙️ Syntesmotorer

Google WaveNet
OpenAI
ElevenLabs

🌍 Språkstöd

220+ röster 40+ språk Regionala accent

⚙️ Anpassning

  • Justerbar talhastighet (x-långsam till x-snabb)
  • Kontrollerbara pauser (<break>)
  • Uttalsmodulering med SSML
  • Realtidsförhandsgranskning

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Tekniska specifikationer

Maximal storlek:

25 MB

Varaktighet:

Upp till 4 timmar

🧠 Avancerad bearbetning

  • Automatisk språkdetektering
  • Smart interpunktion
  • Talareidentifiering
  • Innehållsfiltrering
1

Text-till-tal-arbetsflöde

Grundkonfiguration

  1. Språkval (🇺🇸 en-US, 🇪🇸 es-ES, osv.)
  2. Röstval (Alloy, Echo, PalomaNeural)
  3. Hastighetsjustering (0,8x – 1,5x)

Avancerad anpassning

SSML-taggar:

<prosody rate="fast">Text</prosody>

Pauser:

<break time="500ms"/>
2

Tal-till-text-arbetsflöde

Ljudbearbetning

  • Filuppladdning (dra och släpp)
  • Asynkron konvertering
  • Transkriptionsformatering

Datautmatning

Formaterad text
Kopierat till urklipp
API-integrering

🔧 Tekniska specifikationer

Systemarkitektur

  • WaveNet/Neural2 neurala modeller
  • REST & gRPC API
  • strömning med låg latens

ljudformat

MP3 WAV OGG FLAC AAC

säkerhet

AES-256-kryptering
konfigurerbar dataresidens

användningsgränser

TTS per förfrågan: 5 000 tecken
STT per fil: 25 MB

⚡ API-integration

TTS-slutpunkter

POST /api/v1/tts/generate { "text": "text att konvertera", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }