Wärm schon mal Deine Stimmbänder auf – denn schon bald wird das Tippen ganz schön alt aussehen.

Michael Henretty
Michael Henretty. Aufgenommen von Kasia Odrozek (CC BY-SA 4.0)

Maschinen lernen nach und nach, die verschiedensten Sprachen, Wörter und Akzente zu erkennen. Je raffinierter die Technologie im Bereich der Stimmerkennung wird, desto leichter wird es Computern und elektronischen Geräten fallen, Deine Eingaben und Befehle zu hören und sogar Deine Wünsche zu verstehen.

Auf der anderen Seite laufen zwei Gruppen die Gefahr, von diesen neuen technologischen Errungenschaften vergessen zu werden: einerseits die kleineren Software-Entwickler, die in Sachen Spracherkennung nicht den Zugang zu so gigantischen Datenbanken wie Amazon, Microsoft und Apple haben, und andererseits die Internetnutzer auf der ganzen Welt, die Minderheitensprachen und Dialekte sprechen.

Common Voice, ein Projekt von Mozilla, ist eine von nur wenigen Bestrebungen, eine offene Sprachdatenbank für den öffentlichen Gebrauch zu erstellen. Jeder soll sie frei herunterladen und benutzen können.

Indem hunderte Stunden von Sprachaufnahmen an geschriebene Wörter gekoppelt werden, kann der Datensatz Computern beibringen, Stimmen zu verstehen. Um dieses Projekt zu unterstützen, haben Tausende mittels einer einfachen Webschnittstelle ihre eigenen Sprachaufnahmen an Common Voice gespendet.

Dieses Jahr soll Common Voice neben Englisch noch um weitere Sprachen erweitert werden. Michael Henretty, seines Zeichens Digitalstratege für Mozillas Open Innovation Team, blickt der Zukunft der Open-Source-Sprachtechnologie optimistisch entgegen, betont aber gleichzeitig, dass es noch viel zu tun gibt.

Wie, denken Sie, werden die in Common Voice gespeicherten Daten in Zukunft verwendet?

Henretty: Wir verwenden die englische Sprachdatensammlung, um Mozillas eigene Spracherkennungs-Engine DeepSpeech zu verbessern, und wir hoffen, dass wir es anderen Entwicklern ermöglichen können, das Gleiche mit ihren eigenen Open-Source-Engines zu tun.

Einige haben damit bereits angefangen – zum Beispiel speisen beliebte Open-Source-Projekte wie Kaldi die Daten in ihre eigenen Systeme ein. Wir führen derzeit auch Verhandlungen mit mehreren Universitäten, um die Daten für Forschungszwecke zu nutzen.

Das wichtigste Ziel von Common Voice ist es allerdings, Stimmtechnologie für Sprachen und Gemeinschaften zugänglich zu machen, die sonst zu lange auf ein entsprechendes kommerzielles Angebot warten müssten. Sprecher einer Minderheitensprache zum Beispiel – könnten sie von Spracherkennung Gebrauch machen, um mehr Menschen den Zugang zu der Technologie und den Dienstleistungen zu ermöglichen, die uns das Internet bietet, auch wenn sie das Lesen nie gelernt haben?

Welche Schritte plant Ihr Team, um das Projekt auszubauen und in weiteren Sprachen anzubieten?

Henretty: Wir arbeiten gerade mit dem großartigen Open-Source-Übersetzungsprojekt Tatoeba zusammen, um es auch anderen Communities möglich zu machen, Sprachdaten in der Sprache, dem Dialekt oder dem Akzent ihrer Wahl zu sammeln. Darüber hinaus sind wir gerade dabei, unseren eigenen Webauftritt anregender zu gestalten. Bisher spenden nur ungefähr zehn Prozent der Besucher auf unserer Website tatsächlich auch ihre Stimme. Und diejenigen, die es tun, tun es in der Regel nur einmal. Deshalb suchen wir derzeit nach Wegen, wie wir Common Voice noch interaktiver und bereichender machen können.

Weitere Links

Common Voice, Mozilla
Google, Mozilla and the Race to Make Voice Data for Everyone (Google, Mozilla und der Versuch, möglichst schnell Sprachdaten für alle zu erstellen), Fast Company (2017)