الذكاء الاصطناعي الصوتي متعدد الوسائط

توثيق مجموعة أدوات الصوت

منصة شاملة لتحويل النص إلى كلام والكلام إلى نص مع دعم متعدد اللغات ومحركات ذكاء اصطناعي متقدمة

Text-to-Speech (TTS)

🎙️ محركات التوليف

Google WaveNet
OpenAI
ElevenLabs

🌍 دعم اللغات

220+ صوتًا 40+ لغة لهجات إقليمية

⚙️ تخصيص

  • معدل تحدث قابل للتعديل (بطيء جدًا إلى سريع جدًا)
  • توقفات قابلة للتحكم (<break>)
  • تعديل النطق باستخدام SSML
  • معاينة في الوقت الحقيقي

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 المواصفات الفنية

الحجم الأقصى:

25 MB

المدة:

حتى 4 ساعات

🧠 معالجة متقدمة

  • الكشف التلقائي عن اللغة
  • ترقيم ذكي
  • التعرف على المتحدث
  • تصفية المحتوى
1

سير عمل تحويل النص إلى كلام

التكوين الأساسي

  1. اختيار اللغة (🇺🇸 en-US، 🇪🇸 es-ES، إلخ)
  2. اختيار الصوت (Alloy, Echo, PalomaNeural)
  3. ضبط المعدل (0.8x – 1.5x)

تخصيص متقدم

وسوم SSML:

<prosody rate="fast">Text</prosody>

توقفات:

<break time="500ms"/>
2

سير عمل تحويل الكلام إلى نص

معالجة الصوت

  • تحميل الملف (سحب وإفلات)
  • تحويل غير متزامن
  • تنسيق النص

إخراج البيانات

نص منسق
نسخ إلى الحافظة
تكامل API

🔧 المواصفات الفنية

هندسة النظام

  • نماذج WaveNet/Neural2 العصبية
  • REST & gRPC API
  • البث منخفض الكمون

تنسيقات الصوت

MP3 WAV OGG FLAC AAC

الأمان

تشفير AES-256
إعداد موقع البيانات

حدود الاستخدام

النص إلى كلام لكل طلب: ٥٠٠٠ حرف
التعرّف على الكلام لكل ملف: 25 MB

⚡ تكامل API

نقاط نهاية TTS

POST /api/v1/tts/generate { "text": "النص للتحويل", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }