IA de voz multimodal
Documentación del kit de herramientas de voz
Plataforma integral para conversión de texto a voz y voz a texto con soporte multilingüe y motores de IA avanzados
Text-to-Speech (TTS)
🎙️ Motores de síntesis
Google WaveNet
OpenAI
ElevenLabs
🌍 Soporte de idiomas
220+ voces
40+ idiomas
Acentos regionales
⚙️ Personalización
- Velocidad de habla ajustable (x-lento a x-rápido)
- Pausas controlables (<break>)
- Modulación de pronunciación con SSML
- Vista previa en tiempo real
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Especificaciones técnicas
Tamaño máximo:
25 MBDuración:
Hasta 4 horas🧠 Procesamiento avanzado
- Detección automática de idioma
- Puntuación inteligente
- Identificación del hablante
- Filtrado de contenido
1
Flujo de trabajo de texto a voz
Configuración básica
- Selección de idioma (🇺🇸 en-US, 🇪🇸 es-ES, etc.)
- Selección de voz (Alloy, Echo, PalomaNeural)
- Ajuste de velocidad (0,8x – 1,5x)
Personalización avanzada
Etiquetas SSML:
<prosody rate="fast">Text</prosody>
Pausas:
<break time="500ms"/>
2
Flujo de trabajo de voz a texto
Procesamiento de audio
- Carga de archivos (arrastrar y soltar)
- Conversión asíncrona
- Formateo de transcripción
Salida de datos
Texto formateado
Copiado al portapapeles
Integración de API
🔧 Especificaciones técnicas
Arquitectura del sistema
- Modelos neuronales WaveNet/Neural2
- REST & gRPC API
- transmisión de baja latencia
formatos de audio
MP3
WAV
OGG
FLAC
AAC
seguridad
Encriptación AES-256
residencia de datos configurable
límites de uso
TTS por solicitud:
5.000 caracteres
STT por archivo:
25 MB
⚡ Integración de API
puntos finales TTS
POST /api/v1/tts/generate
{
"text": "texto a convertir",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}