Πολυτροπική φωνητική AI
Τεκμηρίωση Voice Tool Suite
Πλατφόρμα για μετατροπή κειμένου σε ομιλία και ομιλίας σε κείμενο με πολύγλωσση υποστήριξη και προηγμένα AI μηχανήματα
Text-to-Speech (TTS)
🎙️ Μηχανές σύνθεσης
Google WaveNet
OpenAI
ElevenLabs
🌍 Υποστήριξη γλωσσών
220+ φωνές
40+ γλώσσες
Περιφερειακές προφορές
⚙️ Εξατομίκευση
- Ρυθμός ομιλίας (x-αργό έως x-γρήγορο)
- Ελεγχόμενες παύσεις (<break>)
- Διαμόρφωση προφοράς με SSML
- Προεπισκόπηση σε πραγματικό χρόνο
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Τεχνικές προδιαγραφές
Μέγιστο μέγεθος:
25 MBΔιάρκεια:
Έως 4 ώρες🧠 Προηγμένη επεξεργασία
- Αυτόματος εντοπισμός γλώσσας
- Έξυπνη στίξη
- Αναγνώριση ομιλητή
- Φιλτράρισμα περιεχομένου
1
Ροή εργασίας κειμένου σε ομιλία
Βατική διαμόρφωση
- Επιλογή γλώσσας (🇺🇸 en-US, 🇪🇸 es-ES, κ.λπ.)
- Επιλογή φωνής (Alloy, Echo, PalomaNeural)
- Προσαρμογή ρυθμού (0,8x – 1,5x)
Προηγμένη προσαρμογή
Ετικέτες SSML:
<prosody rate="fast">Text</prosody>
Παύσεις:
<break time="500ms"/>
2
Ροή εργασίας ομιλίας σε κείμενο
Επεξεργασία ήχου
- Ανέβασμα αρχείου (μεταφορά και απόθεση)
- Ασύγχρονη μετατροπή
- Μορφοποίηση μεταγραφής
Εξαγωγή δεδομένων
Μορφοποιημένο κείμενο
Αντιγράφηκε στο πρόχειρο
Ενσωμάτωση API
🔧 Τεχνικές προδιαγραφές
Αρχιτεκτονική συστήματος
- Νευρικά μοντέλα WaveNet/Neural2
- REST & gRPC API
- ροή χαμηλής καθυστέρησης
μορφές ήχου
MP3
WAV
OGG
FLAC
AAC
ασφάλεια
Κρυπτογράφηση AES-256
διαμορφώσιμη τοποθεσία δεδομένων
όρια χρήσης
TTS ανά αίτηση:
5.000 χαρακτήρες
STT ανά αρχείο:
25 MB
⚡ Ενσωμάτωση API
σημεία τερματισμού TTS
POST /api/v1/tts/generate
{
"text": "κείμενο προς μετατροπή",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}