class: center, middle ![img33r](roboter1.webp) ## Stimmen klonen und Texte vorlesen lassen mit Applio ### Hauke Goos-Habermann #### https://weisheit.goos-habermann.de --- ### Über mich - Entwickler des
Softwareverteilungssystems m23
- Organisator der
Kieler Open Source und Linux Tage
-
Dienstleister zu m23, Linux und Freier Software
- Softwareentwicklung (PHP, BASH, C/C++, JS, Python und was sonst so gebraucht wird...) - Administration - Schulungen - Support - Beratung - quasi **alles**, *was mit Linux zu tun hat* - Wöchentlicher Livestream *"Jean und Hauke Show"* auf https://www.youtube.com/c/LinuxGuides - *"Nicht der Weisheit letzter Schluß"* mit **beruflichen** oder **privaten Projekten** auf
tube.tchncs.de/c/ndwls
und
youtube.com/@nichtderweisheit
- Probiert immer wieder gern neue OpenSource-KI-Tools aus --- ### Applio? ![img33r](roboter2.webp) Mit Applio könnt Ihr lokal ein **K**ünstliches **N**euronales **N**etzwerk anhand von kurzen **Sprachbeispielen** eines Sprechers trainieren. Dieses Netz ***"lernt"* Spracheigenschaften** des Sprechers (z.B. die Sprachmelodie, Intonation) und kann anschließend dazu verwendet werden, um die Ausgabe einer **
Sprachsynthese
** (TTS) entsprechend anzupassen. Applio vereint die einzelnen Arbeitsschritte in einer Weboberfläche. * Projektseite: https://applio.org * Modelle: https://applio.org/models * Mehr Modelle: https://voice-models.com **Wissenteil** Sprachsynthese von 1939 Bells VODER ⇒ https://www.youtube.com/watch?v=0rAyrmm7vv0 --- ### Achtung: Datenleck ![img33r](../../gfx/achtung.png) Bei der Nutzung von Applio **fließen Daten** ohne Hinweis **ab**, da die Sprachsynthese auf **speech.platform.bing.com** per **Edge TTS** stattfindet. Die zu sprechenden Texte werden dementsprechend an Microsoft übertragen. Lediglich das **Anpassen** der synthetisierten Sprache findet **lokal** statt. Applio sollte daher **keinesfalls für schützenswerte Texte** verwendet werden. Es wurde ein Link (https://docs.applio.org/getting-started/tts#disclaimer) in der Oberfläche hinzugefügt, der aber ins Leere führt... --- ### Ausgangsmaterial ![img33r](roboter3.webp) Das Ausgangsmaterial für die Lernphase sollte möglichst gut sein, daher sollten wenig Nebengeräusche enthalten sein wie z.B. * Hall * Rauschen * Umgebungslärm * Schlechtes Mikrofon * Husten, Schnauben, etc. Je nach Stimme werden benötigt: * 1-5 **Minuten** Audiomaterial * Verschiedene **Sprachsituationen** (z.B. Lautstärken oder Betonungen), die abgeblildet werden sollen --- ### Installation Applio wird derzeit **schnell weiterentwickelt**, daher schaut auf der Projektseite nach dem aktuellen Installationsweg :-) ```bash # Repo klonen git clone https://github.com/IAHispano/Applio.git; cd Applio # Installation chmod +x run-install.sh # ggf. nano run-install.sh, um python3.10 auf python3 zu ändern # und apt-Aufruf zu entfernen ./run-install.sh # Startskript erstellen echo 'export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 ./run-applio.sh' > start chmod +x run-applio.sh start ``` --- ### Aktualisieren Die Applio-Version 3.0.7 konnte ich bei mir folgendermaßen auf 3.2.0 aktualisieren. ```bash # Meine lokalen Änderungen (Konfiguration) in's git einchecken git add . git commit -m konfiguration # Für das Holen und Vereinen mit der offiziellen 3.2.0 git config pull.rebase false git pull https://github.com/IAHispano/Applio 3.2.0 # Neue Abhängigkeiten source .venv/bin/activate pip3 install -r requirements.txt deactivate ``` --- class: center, middle ### Informationen zu mir und meinen Dienstleistungen, m23, ... ### https://goos-habermann.de