AI Suara Multimodal
Dokumentasi Paket Alat Suara
Platforma komprehensif untuk konversi teks-ke-suara dan suara-ke-teks dengan dukungan multibahasa dan mesin AI canggih
Text-to-Speech (TTS)
🎙️ Mesin Sintesis
Google WaveNet
OpenAI
ElevenLabs
🌍 Dukungan Bahasa
220+ suara
40+ bahasa
Aksen Regional
⚙️ Personalisasi
- Kecepatan Bicara yang Dapat Disesuaikan (x-lambat hingga x-cepat)
- Jeda yang Dapat Dikontrol (<break>)
- Modulasi Pengucapan dengan SSML
- Pratinjau Waktu Nyata
Speech-to-Text (STT)
🔉 Supported Formats
MP3/WAV
MP4/WebM
M4A/MPEG
📈 Spesifikasi Teknis
Ukuran Maksimal:
25 MBDurasi:
Sampai 4 jam🧠 Pemrosesan Lanjutan
- Deteksi Bahasa Otomatis
- Tanda Baca Cerdas
- Identifikasi Pembicara
- Penyaringan Konten
1
Alur Kerja Teks-ke-Suara
Konfigurasi Dasar
- Pemilihan Bahasa (🇺🇸 en-US, 🇪🇸 es-ES, dll.)
- Pemilihan Suara (Alloy, Echo, PalomaNeural)
- Penyesuaian Kecepatan (0.8x – 1.5x)
Kustomisasi Lanjutan
Tag SSML:
<prosody rate="fast">Text</prosody>
Jeda:
<break time="500ms"/>
2
Alur Kerja Suara-ke-Teks
Pemrosesan Audio
- Unggah File (seret dan lepas)
- Konversi Asinkron
- Pemformatan Transkripsi
Keluaran Data
Teks yang Diformat
Disalin ke papan klip
Integrasi API
🔧 Spesifikasi Teknis
Arsitektur Sistem
- Model Neural WaveNet/Neural2
- REST & gRPC API
- streaming latensi rendah
format audio
MP3
WAV
OGG
FLAC
AAC
keamanan
Enkripsi AES-256
residensi data yang dapat dikonfigurasi
batas penggunaan
TTS per permintaan:
5.000 karakter
STT per file:
25 MB
⚡ Integrasi API
titik akhir TTS
POST /api/v1/tts/generate
{
"text": "teks untuk dikonversi",
"voice": "es-US-PalomaNeural",
"speed": 1.2
}
STT Endpoints
POST /api/v1/stt/transcribe
{
"audio_url": "https://ejemplo.com/audio.mp3",
"language": "es-ES"
}