IA vocale multimodale

Documentation de la suite d'outils vocaux

Plateforme complète pour la conversion texte-parole et parole-texte avec support multilingue et moteurs IA avancés

Text-to-Speech (TTS)

🎙️ Moteurs de synthèse

Google WaveNet
OpenAI
ElevenLabs

🌍 Prise en charge des langues

220+ voix 40+ langues Accents régionaux

⚙️ Personnalisation

  • Vitesse d'élocution réglable (x-lent à x-rapide)
  • Pauses contrôlables (<break>)
  • Modulation de la prononciation avec SSML
  • Aperçu en temps réel

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Spécifications techniques

Taille maximale:

25 MB

Durée:

Jusqu'à 4 heures

🧠 Traitement avancé

  • Détection automatique de la langue
  • Ponctuation intelligente
  • Identification de l'orateur
  • Filtrage de contenu
1

Workflow texte-parole

Configuration de base

  1. Sélection de la langue (🇺🇸 en-US, 🇪🇸 es-ES, etc.)
  2. Sélection de la voix (Alloy, Echo, PalomaNeural)
  3. Ajustement de la vitesse (0,8x – 1,5x)

Personnalisation avancée

Balises SSML :

<prosody rate="fast">Text</prosody>

Pauses :

<break time="500ms"/>
2

Workflow parole-texte

Traitement audio

  • Téléchargement de fichiers (glisser-déposer)
  • Conversion asynchrone
  • Formatage de la transcription

Sortie de données

Texte formaté
Copié dans le presse-papiers
Intégration API

🔧 Spécifications techniques

Architecture du système

  • Modèles neuronaux WaveNet/Neural2
  • REST & gRPC API
  • streaming à faible latence

formats audio

MP3 WAV OGG FLAC AAC

sécurité

Chiffrement AES-256
résidence des données configurable

limites d’utilisation

TTS par requête: 5 000 caractères
STT par fichier: 25 MB

⚡ Intégration API

points de terminaison TTS

POST /api/v1/tts/generate { "text": "texte à convertir", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }