Voice Tools Suite: Komplettes Handbuch
Wandeln Sie Text in natürliche Sprache um und konvertieren Sie Audio in Text mit KI-gestützter Präzision
KI-Stimmen
Natürlich klingende Stimmen
Sprachen
Globaler Support
Genauigkeit
Spracherkennung
Maximale Dauer
Pro Audiodatei
📚 Was Sie lernen
Text-zu-Sprache (TTS)
- 1 Erstellung Ihrer ersten Vertonung
- 2 Anpassen der Stimmeinstellungen
- 3 Verwendung von SSML für erweiterte Steuerung
Sprache-zu-Text (STT)
- 4 Konvertierung Ihrer ersten Audiodatei
- 5 Umgang mit mehreren Sprechern
- 6 Exportieren und Formatieren von Ergebnissen
Erstellen Ihrer ersten Vertonung
Erfahren Sie, wie Sie Text in natürlich klingende Sprache in 3 einfachen Schritten umwandeln
Schritt 1: Wählen Sie Ihre Stimme
1. Klicken Sie im oberen Menü auf "Neues Voice-over"
2. Wählen Sie Ihre bevorzugte Stimme:
Google WaveNet
Am besten für den allgemeinen Gebrauch
OpenAI
Premium-Qualität
ElevenLabs
Am natürlichsten
💡 Tipp: Hören Sie sich Stimmenproben an, bevor Sie wählen. Jede Stimme hat einzigartige Eigenschaften
Schritt 2: Geben Sie Ihren Text ein
1. Geben Sie Ihren Text im Editor ein oder fügen Sie ihn ein
2. Verwenden Sie SSML-Tags zur Steuerung:
<speak>
<prosody rate="slow">Welcome to our guide.</prosody>
<break time="1s"/>
<prosody pitch="high">Let\'s get started!</prosody>
</speak>
Beispiel: Verwenden Sie Pausen und Betonung, um Ihren Voice-Over ansprechender zu gestalten
Schritt 3: Generieren & Exportieren
1. Klicken Sie auf "Generieren", um Ihr Audio zu erstellen
2. Vorschau des Ergebnisses
3. Exportformat wählen:
MP3
Am besten für Web
WAV
Hohe Qualität
OGG
Komprimiert
Sprache-zu-Text: vollständige Anleitung
Verwandeln Sie Ihr Audio mit KI-gestützter Transkription in genauen Text
Schritt 1: Laden Sie Ihre Audio-Datei hoch
Beginnen Sie mit dem Hochladen Ihrer Audiodatei:
- Unterstützte Formate: MP3, WAV, MP4, WebM, M4A
- Maximale Dateigröße: 25 MB
- Maximale Dauer: 4 Stunden
- Stapel-Upload: Bis zu 10 Dateien gleichzeitig
💡 Profi-Tipp: Für beste Ergebnisse verwenden Sie klaren Ton mit minimalem Hintergrundrauschen. Ziehen Sie vor dem Hochladen Rauschunterdrückungs-Software in Betracht.
Schritt 2: Einstellungen konfigurieren
Spracheinstellungen
- Automatische Spracherkennung
- Manuelle Sprachauswahl (40+ Sprachen)
- Unterstützung mehrerer Sprachen
- Benutzerdefinierter Wortschatz
Transkriptionsoptionen
- Speaker-Diarisierung
- Interpunktion
- Zeitstempel
- Formatierungseinstellungen
Schritt 3: Umgang mit mehreren Sprechern
Sprecheridentifikation konfigurieren:
Sprechererkennung
- Aktivieren Sie "Mehrere Sprecher"
- Stellen Sie die Anzahl der Sprecher ein (2-10)
- Automatische Sprechererkennung
- Manuelle Sprecherzuweisung
Sprechermarken
- Sprecher 1, Sprecher 2 usw.
- Benutzerdefinierte Namen (John, Sarah)
- Rollengestützt (Interviewer, Gast)
- Benutzerdefinierte Bezeichnungen
Beispielausgabe:
[00:00:15] Interviewer: Welcome to our podcast. Today we\'re discussing AI technology.
[00:00:20] Guest: Thank you for having me. I\'m excited to share my insights.
[00:00:25] Interviewer: Let\'s start with the basics. What is AI?
💡 Profi-Tipp: Für beste Ergebnisse bei mehreren Sprechern sorgen Sie für klare Audio-Trennung und minimalen Hintergrundlärm. Erwägen Sie den Einsatz separater Mikrofone für jeden Sprecher bei Live-Aufnahmen.
Schritt 4: Überprüfen & Bearbeiten
Überprüfen und verfeinern Sie Ihre Transkription:
Bearbeitungstools
- Textkorrektur
- Sprecherzuweisung
- Zeitstempel-Anpassung
- Interpunktionsbearbeitung
Qualitätsprüfungen
- Genauigkeitsprüfung
- Überprüfung der Sprecheridentifizierung
- Formatkonsistenz
- Sprachgenauigkeit
💡 Profi-Tipp: Verwenden Sie Tastenkürzel (⌘ + E zum Bearbeiten, ⌘ + S zum Speichern), um Ihren Überprüfungsprozess zu beschleunigen. Die KI lernt aus Ihren Korrekturen, um zukünftige Transkriptionen zu verbessern.
Schritt 5: Export & Integration
Wählen Sie Ihr Exportformat und Integrationsoptionen:
Exportformate
Integrationsoptionen
- Direkter Download
- Cloud-Speicher (Google Drive, Dropbox)
- API-Zugriff für Entwickler
- Webhook-Benachrichtigungen
Beispiel-Formate:
SRT-Format:
1
00:00:15,000 --> 00:00:20,000
Interviewer: Welcome to our podcast.
2
00:00:20,000 --> 00:00:25,000
Guest: Thank you for having me.
JSON-Format:
{
"segments": [
{
"start": "00:00:15",
"end": "00:00:20",
"speaker": "Interviewer",
"text": "Welcome to our podcast."
}
]
}
💡 Profi-Tipp: Verwenden Sie das JSON-Format für den programmatischen Zugriff oder wenn Sie die Transkriptionsdaten weiter verarbeiten müssen. Das SRT-Format ist ideal für Video-Untertitel, während VTT perfekt für Web-Videoplayer ist.
Erweiterte Funktionen & Tipps
Meistern Sie erweiterte Funktionen, um das Beste aus Voice Tools Suite herauszuholen
Erweiterte Text-zu-Sprache
Voice Cloning
Laden Sie eine Sprachprobe hoch, um eine benutzerdefinierte Stimme zu erstellen
Emotionskontrol
<prosody emotion="happy">I\'m excited to share this!</prosody>
Erweiterte Sprache-zu-Text
Sprecherdiarisierung
Identifizieren Sie automatisch verschiedene Sprecher
Benutzerdefinierter Wortschatz
Fügen Sie branchenspezifische Begriffe für eine bessere Genauigkeit hinzu
Tastaturkürzel
Bereit, Ihre Inhalte zu transformieren?
Beginnen Sie noch heute mit der Erstellung professioneller Sprachaufnahmen und Transkriptionen