class: center, middle # Automatische Untertitel mit der Spracherkennung "Whisper" ### Hauke Goos-Habermann #### https://goos-habermann.de --- ### Über mich - Entwickler des
Softwareverteilungssystems m23
- Organisator der
Kieler Open Source und Linux Tage
-
Dienstleister zu m23, Linux und Freier Software
- Softwareentwicklung (PHP, BASH, C/C++, JS, Python und was sonst so gebraucht wird...) - Administration - Schulungen - Support - Beratung - quasi **alles**, *was mit Linux zu tun hat* - Wöchentlicher Livestream *"Jean und Hauke Show"* auf https://www.youtube.com/c/LinuxGuides - Community-Video-Serie *"Nicht der Weisheit letzter Schluß"* auf
tube.tchncs.de
und
YouTube
mit **beruflichen** oder **privaten Projekten** - Verwendet machmal lokale KI-Anwendungen. --- ### Whisper? **Whisper** ist eine freie **Spracherkennung** von OpenAI, die Audiospuren von Videodateien oder Tondateien mit Sprache in Text umwandelt. Whisper verwendet ffmpeg, um die Audioinformation aus der Eingabedatei zu lesen. Es können **verschiedene Ausgabeformate** (z.B. srt-Untertiteldateien) erstellt und auch gleich in eine **andere Sprache übersetzt** werden. Die Ausführung erfolgt **lokal** auf Eurem eigenen Rechner. Das gewählte **Sprachmodell** wird vor der ersten Nutzung automatisch **heruntergeladen**. Informationen (z.B. RAM-Bedarf und Funktionsweise): https://github.com/openai/whisper --- ### Installation Als **root**: ```bash # Python-Venv, git und Aktualisierungsverwaltung installieren apt -y install python3-venv git pip-review ``` Als **normaler Benutzer**: ```bash # Arbeitsverzeichnis anlegen mkdir whisper cd whisper # Python-Umgebung erstellen und aktivieren python3 -m venv whisperenv source whisperenv/bin/activate # Whisper installieren pip install git+https://github.com/openai/whisper.git # Funktioniert es? whisper --help ``` --- ### Verwenden Über Kommandozeilenprameter teilen wir Whisper mit, was es tun soll: ```bash mkdir out whisper --model_dir whisperenv/models --language de --model large-v2\ --device cpu --task translate --output_dir out --output_format all SFD.mp4 ``` * *--model_dir*: Verzeichnis, in dem die Modelle zu finden sind und wohin sie heruntergeladen werden * *--language*: Sprache * *--model*: Name des Modells * *--device*: Wo soll gerechnet werden? * *--task translate*: Gleich auf englisch übersetzen * *--output_dir*: Wo sollen die Transkribierungen gespeichert werden? * *--output_format*: Format der Transkribierungsdatei(en) --- ### Was kommt raus? Automatische **Transkription** unseres SFD-Videos(https://tube.tchncs.de/w/e2mjitcq3vWPAMD4CGbkni): Hallo! Schöne Grüße aus Kiel! Wir genießen gerade den Software-Freedom-Day mit ***Trucks***, Micha, Hauke und mir. Und eigentlich, das Ganze, was wir nun machen, wir haben zwar irgendwie so Vorträge und so richtig, richtig coole Sachen, ganz viele Aussteller, aber was wir eigentlich wirklich alle in Wahrheit machen, ist hier nur ein bisschen ***Super-Trucks-Card*** zu spielen. Und ich muss sagen, die haben sehr, sehr viel Spaß und so lässt sich den Software-Freedom-Day aushalten. Ja, viele Grüße aus Kiel! Automatische **Übersetzung**: Hello, greetings from Kiel! We are enjoying the Software Freedom Day with *Tux*, Micha, Hauke and me. And actually, the whole thing we're doing now, we have lectures and really, really cool things, a lot of exhibitors. But what we're all really doing is just playing a little ***Super Tux card*** here. And I have to say, they have a lot of fun and that's how you can enjoy the Software Freedom Day. Yes, greetings from Kiel! --- ### Zu wenig NVIDIA-GPU-Speicher? * Vor dem whisper-Aufruf kann der Grafikspeicher anders aufgeteilt werden, um diesen effizienter zu nutzen: ```bash export 'PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128' ``` * Anderes (kleineres) Modell verwenden * Auf CPU rechnen ;-) --- # Whisper aktualisieren Innerhalb der Python-Venv kann die Software aktualisiert werden mit: ```bash source whisperenv/bin/activate pip-review --interactive pip install --upgrade --no-deps --force-reinstall\ git+https://github.com/openai/whisper.git ``` --- class: center, middle ### Informationen zu mir und meinen Dienstleistungen, m23, ... ### https://goos-habermann.de