IA vocale multimodale

Documentazione della suite di strumenti vocali

Piattaforma completa per la conversione testo-vocale e vocale-testo con supporto multilingue e motori AI avanzati

Text-to-Speech (TTS)

🎙️ Motori di sintesi

Google WaveNet
OpenAI
ElevenLabs

🌍 Supporto linguistico

220+ voci 40+ lingue Accenti regionali

⚙️ Personalizzazione

  • Velocità di parlato regolabile (x-lento a x-veloce)
  • Pause controllabili (<break>)
  • Modulazione della pronuncia con SSML
  • Anteprima in tempo reale

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Specifiche tecniche

Dimensione massima:

25 MB

Durata:

Fino a 4 ore

🧠 Elaborazione avanzata

  • Rilevamento automatico della lingua
  • Punteggiatura intelligente
  • Identificazione del parlante
  • Filtraggio dei contenuti
1

Flusso di lavoro testo-vocale

Configurazione base

  1. Selezione lingua (🇺🇸 en-US, 🇪🇸 es-ES, ecc.)
  2. Selezione voce (Alloy, Echo, PalomaNeural)
  3. Regolazione velocità (0,8x – 1,5x)

Personalizzazione avanzata

Tag SSML:

<prosody rate="fast">Text</prosody>

Pause:

<break time="500ms"/>
2

Flusso di lavoro voce-testo

Elaborazione audio

  • Caricamento file (trascina e rilascia)
  • Conversione asincrona
  • Formattazione trascrizione

Output dati

Testo formattato
Copiato negli appunti
Integrazione API

🔧 Specifiche tecniche

Architettura del sistema

  • Modelli neurali WaveNet/Neural2
  • REST & gRPC API
  • streaming a bassa latenza

formati audio

MP3 WAV OGG FLAC AAC

sicurezza

Crittografia AES-256
residenza dati configurabile

limiti di utilizzo

TTS per richiesta: 5.000 caratteri
STT per file: 25 MB

⚡ Integrazione API

endpoint TTS

POST /api/v1/tts/generate { "text": "testo da convertire", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }