الذكاء الاصطناعي الصوتي متعدد الوسائط
توثيق مجموعة أدوات الصوت
منصة شاملة لتحويل النص إلى كلام والكلام إلى نص مع دعم متعدد اللغات ومحركات ذكاء اصطناعي متقدمة
Text-to-Speech (TTS)
🎙️ محركات التوليف
Google WaveNet
OpenAI
ElevenLabs
🌍 دعم اللغات
220+ صوتًا
40+ لغة
لهجات إقليمية
⚙️ تخصيص
- معدل تحدث قابل للتعديل (بطيء جدًا إلى سريع جدًا)
- توقفات قابلة للتحكم (<break>)
- تعديل النطق باستخدام SSML
- معاينة في الوقت الحقيقي
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 المواصفات الفنية
الحجم الأقصى:
25 MBالمدة:
حتى 4 ساعات🧠 معالجة متقدمة
- الكشف التلقائي عن اللغة
- ترقيم ذكي
- التعرف على المتحدث
- تصفية المحتوى
1
سير عمل تحويل النص إلى كلام
التكوين الأساسي
- اختيار اللغة (🇺🇸 en-US، 🇪🇸 es-ES، إلخ)
- اختيار الصوت (Alloy, Echo, PalomaNeural)
- ضبط المعدل (0.8x – 1.5x)
تخصيص متقدم
وسوم SSML:
<prosody rate="fast">Text</prosody>
توقفات:
<break time="500ms"/>
2
سير عمل تحويل الكلام إلى نص
معالجة الصوت
- تحميل الملف (سحب وإفلات)
- تحويل غير متزامن
- تنسيق النص
إخراج البيانات
نص منسق
نسخ إلى الحافظة
تكامل API
🔧 المواصفات الفنية
هندسة النظام
- نماذج WaveNet/Neural2 العصبية
- REST & gRPC API
- البث منخفض الكمون
تنسيقات الصوت
MP3
WAV
OGG
FLAC
AAC
الأمان
تشفير AES-256
إعداد موقع البيانات
حدود الاستخدام
النص إلى كلام لكل طلب:
٥٠٠٠ حرف
التعرّف على الكلام لكل ملف:
25 MB
⚡ تكامل API
نقاط نهاية TTS
POST /api/v1/tts/generate
{
"text": "النص للتحويل",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}