IA de voz multimodal

Documentación del kit de herramientas de voz

Plataforma integral para conversión de texto a voz y voz a texto con soporte multilingüe y motores de IA avanzados

Text-to-Speech (TTS)

🎙️ Motores de síntesis

Google WaveNet
OpenAI
ElevenLabs

🌍 Soporte de idiomas

220+ voces 40+ idiomas Acentos regionales

⚙️ Personalización

  • Velocidad de habla ajustable (x-lento a x-rápido)
  • Pausas controlables (<break>)
  • Modulación de pronunciación con SSML
  • Vista previa en tiempo real

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Especificaciones técnicas

Tamaño máximo:

25 MB

Duración:

Hasta 4 horas

🧠 Procesamiento avanzado

  • Detección automática de idioma
  • Puntuación inteligente
  • Identificación del hablante
  • Filtrado de contenido
1

Flujo de trabajo de texto a voz

Configuración básica

  1. Selección de idioma (🇺🇸 en-US, 🇪🇸 es-ES, etc.)
  2. Selección de voz (Alloy, Echo, PalomaNeural)
  3. Ajuste de velocidad (0,8x – 1,5x)

Personalización avanzada

Etiquetas SSML:

<prosody rate="fast">Text</prosody>

Pausas:

<break time="500ms"/>
2

Flujo de trabajo de voz a texto

Procesamiento de audio

  • Carga de archivos (arrastrar y soltar)
  • Conversión asíncrona
  • Formateo de transcripción

Salida de datos

Texto formateado
Copiado al portapapeles
Integración de API

🔧 Especificaciones técnicas

Arquitectura del sistema

  • Modelos neuronales WaveNet/Neural2
  • REST & gRPC API
  • transmisión de baja latencia

formatos de audio

MP3 WAV OGG FLAC AAC

seguridad

Encriptación AES-256
residencia de datos configurable

límites de uso

TTS por solicitud: 5.000 caracteres
STT por archivo: 25 MB

⚡ Integración de API

puntos finales TTS

POST /api/v1/tts/generate { "text": "texto a convertir", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }