OpenSuse-Tipps
Audio-Memos sind oft die praktikabelste Methode, um im Alltag mit dem Smartphone Notizen festzuhalten. Die seit Ende 2022 verfügbare freie Spracherkennungssoftware Whisper von OpenAI erspart es sogar, die Stimmaufnahmen abzutippen. Auch längere Texte lassen sich so bei hervorragender Erkennungsgenauigkeit komfortabel diktieren.
Es gibt zwar keine OpenSuse-Pakete für diese Software, doch das Kompilieren aus dem Quellcode gelingt schnell und zuverlässig: Es handelt sich um C/C++-Code ohne externe Abhängigkeiten, was die Fehleranfälligkeit des Kompiliervorgangs begrenzt und den Aufwand auf einen Aufruf von Make reduziert 1.
Whisper ist kein klassisches Diktierprogramm wie das kommerzielle Dragon NaturallySpeaking des US-Unternehmens Nuance. Diese weitverbreitete Software gibt es allerdings gar nicht für Linux, und da Microsoft den Hersteller 2021 aufgekauft hat, dürfte es auch in Zukunft dabei bleiben.
Anders als NaturallySpeaking untersucht Whisper stets gesprochene Abschnitte von 30 Sekunden Dauer. Bei einer Erkennungsgeschwindigkeit von etwa der halben Aufnahmedauer auf aktuellen PCs braucht die hier vorgestellte C++-Spielart des Programms also um die 15 Sekunden, bis sie den transkribierten Text liefert. Das gilt auch dann, wenn die Audioaufnahme nur aus einem Wort