IA vocale multimodale
Documentazione della suite di strumenti vocali
Piattaforma completa per la conversione testo-vocale e vocale-testo con supporto multilingue e motori AI avanzati
Text-to-Speech (TTS)
🎙️ Motori di sintesi
Google WaveNet
OpenAI
ElevenLabs
🌍 Supporto linguistico
220+ voci
40+ lingue
Accenti regionali
⚙️ Personalizzazione
- Velocità di parlato regolabile (x-lento a x-veloce)
- Pause controllabili (<break>)
- Modulazione della pronuncia con SSML
- Anteprima in tempo reale
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Specifiche tecniche
Dimensione massima:
25 MBDurata:
Fino a 4 ore🧠 Elaborazione avanzata
- Rilevamento automatico della lingua
- Punteggiatura intelligente
- Identificazione del parlante
- Filtraggio dei contenuti
1
Flusso di lavoro testo-vocale
Configurazione base
- Selezione lingua (🇺🇸 en-US, 🇪🇸 es-ES, ecc.)
- Selezione voce (Alloy, Echo, PalomaNeural)
- Regolazione velocità (0,8x – 1,5x)
Personalizzazione avanzata
Tag SSML:
<prosody rate="fast">Text</prosody>
Pause:
<break time="500ms"/>
2
Flusso di lavoro voce-testo
Elaborazione audio
- Caricamento file (trascina e rilascia)
- Conversione asincrona
- Formattazione trascrizione
Output dati
Testo formattato
Copiato negli appunti
Integrazione API
🔧 Specifiche tecniche
Architettura del sistema
- Modelli neurali WaveNet/Neural2
- REST & gRPC API
- streaming a bassa latenza
formati audio
MP3
WAV
OGG
FLAC
AAC
sicurezza
Crittografia AES-256
residenza dati configurabile
limiti di utilizzo
TTS per richiesta:
5.000 caratteri
STT per file:
25 MB
⚡ Integrazione API
endpoint TTS
POST /api/v1/tts/generate
{
"text": "testo da convertire",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}