IA vocale multimodale
Documentation de la suite d'outils vocaux
Plateforme complète pour la conversion texte-parole et parole-texte avec support multilingue et moteurs IA avancés
Text-to-Speech (TTS)
🎙️ Moteurs de synthèse
Google WaveNet
OpenAI
ElevenLabs
🌍 Prise en charge des langues
220+ voix
40+ langues
Accents régionaux
⚙️ Personnalisation
- Vitesse d'élocution réglable (x-lent à x-rapide)
- Pauses contrôlables (<break>)
- Modulation de la prononciation avec SSML
- Aperçu en temps réel
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Spécifications techniques
Taille maximale:
25 MBDurée:
Jusqu'à 4 heures🧠 Traitement avancé
- Détection automatique de la langue
- Ponctuation intelligente
- Identification de l'orateur
- Filtrage de contenu
1
Workflow texte-parole
Configuration de base
- Sélection de la langue (🇺🇸 en-US, 🇪🇸 es-ES, etc.)
- Sélection de la voix (Alloy, Echo, PalomaNeural)
- Ajustement de la vitesse (0,8x – 1,5x)
Personnalisation avancée
Balises SSML :
<prosody rate="fast">Text</prosody>
Pauses :
<break time="500ms"/>
2
Workflow parole-texte
Traitement audio
- Téléchargement de fichiers (glisser-déposer)
- Conversion asynchrone
- Formatage de la transcription
Sortie de données
Texte formaté
Copié dans le presse-papiers
Intégration API
🔧 Spécifications techniques
Architecture du système
- Modèles neuronaux WaveNet/Neural2
- REST & gRPC API
- streaming à faible latence
formats audio
MP3
WAV
OGG
FLAC
AAC
sécurité
Chiffrement AES-256
résidence des données configurable
limites d’utilisation
TTS par requête:
5 000 caractères
STT par fichier:
25 MB
⚡ Intégration API
points de terminaison TTS
POST /api/v1/tts/generate
{
"text": "texte à convertir",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}