Multimodal Voice AI

Dokumentation til Voice Tool Suite

Omfattende platform til tekst-til-tale og tale-til-tekst konvertering med flersproget support og avancerede AI-motorer

Text-to-Speech (TTS)

🎙️ Syntesemotorer

Google WaveNet
OpenAI
ElevenLabs

🌍 Sprogunderstøttelse

220+ stemmer 40+ sprog Regionale accenter

⚙️ Tilpasning

  • Justerbar taletakt (x-slow til x-fast)
  • Kontrollerbare pauser (<break>)
  • Udtaleforandring med SSML
  • Realtidsforhåndsvisning

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Tekniske specifikationer

Maksimal størrelse:

25 MB

Varighed:

Op til 4 timer

🧠 Avanceret behandling

  • Automatisk sprogdetektering
  • Smart tegnsætning
  • Højttaleridentifikation
  • Indholdsfiltrering
1

Tekst-til-tale arbejdsgang

Grundlæggende konfiguration

  1. Valg af sprog (🇺🇸 en-US, 🇪🇸 es-ES, osv.)
  2. Stemmevalg (Alloy, Echo, PalomaNeural)
  3. Hastighedsjustering (0,8x – 1,5x)

Avanceret tilpasning

SSML-tags:

<prosody rate="fast">Text</prosody>

Pauser:

<break time="500ms"/>
2

Tale-til-tekst arbejdsgang

Lydbehandling

  • Filupload (træk og slip)
  • Asynkron konvertering
  • Transskriptionsformatering

Dataoutput

Formateret tekst
Kopieret til udklipsholder
API-integration

🔧 Tekniske specifikationer

Systemarkitektur

  • WaveNet/Neural2 neurale modeller
  • REST & gRPC API
  • lav-latens streaming

lydformater

MP3 WAV OGG FLAC AAC

sikkerhed

AES-256-kryptering
konfigurerbar dataresidens

brugsgrænser

TTS pr. anmodning: 5.000 tegn
STT pr. fil: 25 MB

⚡ API-integration

TTS-endepunkter

POST /api/v1/tts/generate { "text": "tekst til konvertering", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }