AI Suara Multimodal

Dokumentasi Paket Alat Suara

Platforma komprehensif untuk konversi teks-ke-suara dan suara-ke-teks dengan dukungan multibahasa dan mesin AI canggih

Text-to-Speech (TTS)

🎙️ Mesin Sintesis

Google WaveNet
OpenAI
ElevenLabs

🌍 Dukungan Bahasa

220+ suara 40+ bahasa Aksen Regional

⚙️ Personalisasi

  • Kecepatan Bicara yang Dapat Disesuaikan (x-lambat hingga x-cepat)
  • Jeda yang Dapat Dikontrol (<break>)
  • Modulasi Pengucapan dengan SSML
  • Pratinjau Waktu Nyata

Speech-to-Text (STT)

🔉 Supported Formats

MP3/WAV MP4/WebM M4A/MPEG

📈 Spesifikasi Teknis

Ukuran Maksimal:

25 MB

Durasi:

Sampai 4 jam

🧠 Pemrosesan Lanjutan

  • Deteksi Bahasa Otomatis
  • Tanda Baca Cerdas
  • Identifikasi Pembicara
  • Penyaringan Konten
1

Alur Kerja Teks-ke-Suara

Konfigurasi Dasar

  1. Pemilihan Bahasa (🇺🇸 en-US, 🇪🇸 es-ES, dll.)
  2. Pemilihan Suara (Alloy, Echo, PalomaNeural)
  3. Penyesuaian Kecepatan (0.8x – 1.5x)

Kustomisasi Lanjutan

Tag SSML:

<prosody rate="fast">Text</prosody>

Jeda:

<break time="500ms"/>
2

Alur Kerja Suara-ke-Teks

Pemrosesan Audio

  • Unggah File (seret dan lepas)
  • Konversi Asinkron
  • Pemformatan Transkripsi

Keluaran Data

Teks yang Diformat
Disalin ke papan klip
Integrasi API

🔧 Spesifikasi Teknis

Arsitektur Sistem

  • Model Neural WaveNet/Neural2
  • REST & gRPC API
  • streaming latensi rendah

format audio

MP3 WAV OGG FLAC AAC

keamanan

Enkripsi AES-256
residensi data yang dapat dikonfigurasi

batas penggunaan

TTS per permintaan: 5.000 karakter
STT per file: 25 MB

⚡ Integrasi API

titik akhir TTS

POST /api/v1/tts/generate { "text": "teks untuk dikonversi", "voice": "es-US-PalomaNeural", "speed": 1.2 }

STT Endpoints

POST /api/v1/stt/transcribe { "audio_url": "https://ejemplo.com/audio.mp3", "language": "es-ES" }