Stell Dir vor, Du blätterst durch ein Buch, das in einer Dir unbekannten Sprache geschrieben ist. Du kannst dir die Bilder anschauen, verstehst aber lediglich ein paar Satzfetzen.

Millionen von Menschen geht es ähnlich, wenn sie online gehen und versuchen, das Internet zu erkunden.

Die Software, Apps, Betriebssysteme und Sprachtechnologien, die das Geschehen im Internet bestimmen, sind oft nur auf Englisch oder in anderen Sprachen, die einen Marktvorteil mit sich bringen, verfügbar.

Wer dafür brennt, das Internet um Inhalte in seiner jeweiligen Sprache zu bereichern, kann sich Initiativen anschließen, die für einen bestimmten Zweck Texte übersetzen, lokalisieren, verfassen, tippen und tweeten. Trotzdem ist es für unterrepräsentierte Sprachen schwer, gesellschaftlich relevanter zu werden, wenn man stattdessen auch auf mehrheitlich gesprochene und verstandene Sprachen zurückgreifen kann.

Das führt zu einem Phänomen, das von einigen Forschern als „digitales Aussterben“ selten gesprochener oder geschriebener Sprachen bezeichnet wird. Selbst in wohlhabenden Ländern, in denen der Großteil der Einwohner Zugang zum Internet hat, kann dieses Phänomen auftreten.

Zum Beispiel wird Isländisch von weniger als 400.000 Menschen gesprochen, was dazu führt, dass Isländer mit ihren sprachgesteuerten Geräten wie selbstverständlich auf Englisch interagieren. Einige betrachten den Mangel an Software in Isländisch als Faktor, der eine Dominanz der englischen Sprache und das Aussterben des Isländischen begünstigt.

Technologien und Übersetzungen, die eine Vielzahl von Sprachen abdecken, reichen allerdings nicht aus. Ein gesundes Internet benötigt lokal relevante Inhalte, also ein authentisches Spiegelbild der Sprachen und Erfahrungen seiner Nutzer. Das Fehlen solcher Inhalte kann die Expansion des Internets lähmen und Frust bei den Menschen auslösen, die im Netz nach Informationen und Nachrichten suchen.

Bestimmt fragst Du Dich jetzt, wie weit verbreitet Deine eigene Muttersprache im Internet ist. Das ist überraschend schwer einzuschätzen. Woran lässt sich zum Beispiel festmachen, welche Menge an Online-Inhalten für eine bestimmte Bevölkerungsgruppe angemessen ist? Oder wie kann man prüfen, ob sich die Lage der Sprachenvielfalt weltweit bessert?

Eine verbreitete Methode, um dies zu erfassen, ist der Vergleich zwischen der geschätzten Zahl der Internetnutzer, die eine bestimmte Sprache sprechen, und dem geschätzten Prozentanteil der Websites, die in eben dieser Sprache verfügbar sind. Die Ergebnisse sind mitunter verblüffend: Zum Beispiel liegen mehr als 50 % aller Web-Inhalte auf Englisch vor, wohingegen gerade mal 25 % aller Internetnutzer diese Sprache überhaupt sprechen. Diesen Umstand haben auch wir in der Vorabversion unseres Statusberichts zur Internetgesundheit angesprochen. Allerdings sind diese Zahlen vermutlich nicht ganz akkurat.

Auch Daniel Pimienta von FUNREDES, einer Internet-Forschungsgruppe aus der Dominikanischen Republik, die derzeit mehr oder weniger inaktiv ist, zweifelt die Genauigkeit dieser gängigen Erfassungsmethode für die Sprachen des Internets an. In einem Bericht für die UNESCO aus dem Jahr 2009 argumentierte Pimienta, die kulturelle Vorrangstellung des Englischen sei durch Vorurteile hochgespielt worden, die nach unzähligem Wiederholen nun als absolute Wahrheit gelten.

Beispielsweise nutzen viele Internetforscher die Liste der beliebtesten Websites von Alexa Internet als wissenschaftliche Grundlage – darunter auch W3Techs, die die oben erwähnten Prozentwerte der Online-Inhalte für bestimmte Sprachen ermitteln. Diese Liste erfasst jedoch nur einen Bruchteil der Milliarden Webseiten, die es im Netz gibt. Sie bietet insofern einen Vorteil, als sie Spam, geparkte Domains und andere (für Menschen) irrelevante Webseiten herausfiltert.

Wie Alexa, ein webbasiertes Marketinginstrument im Besitz von Amazon, jedoch an seine Daten kommt, ist nicht bekannt. Einige Websites lassen die Anzahl ihrer Besucher über den sogenannten „Alexa Certify“-Code aufzeichnen. Außerdem soll das Instrument dem Unternehmen zufolge in der Lage sein, über „mehr als 25.000 Browsererweiterungen“ die Informationen von „Millionen und Abermillionen“ Internetnutzern auszuwerten. Über den Standort dieser Nutzer werden jedoch keine Angaben gemacht.

Derzeit gibt es mehrere Versuche, den Anteil verschiedener Sprachen am Gesamtinhalt des Internets präziser zu berechnen.

Pimienta schlägt eine alternative Sprachforschungsmethode vor, die anhand dutzender verfügbarer Indikatoren die relative „Macht“ einer Sprache ermittelt. Zu diesen Indikatoren zählen Wikipedia-Seiten, Software-Downloads und die Nutzerzahlen bestimmter sozialer Medien. Seiner Einschätzung zufolge beträgt der Anteil des Englischen am Gesamtinhalt des Internets tatsächlich eher um die 30 %.

Der Inclusive Internet Index wiederum schätzt die Menge an Online-Inhalten in den Sprachen 86 verschiedener Länder ein. Zu diesem Zweck befragt er deren Einwohner, ob es vor Ort Nachrichten- und Unterhaltungsportale in diesen Sprachen gibt und ob staatliche, gesundheitliche und finanzielle Dienstleistungen in digitaler Form verfügbar sind.

Zudem forscht die UNESCO derzeit nach neuen Indikatoren zur Internet-Universalität, die ebenfalls einen Hinweis darauf geben könnten, ob Inhalte in der jeweiligen Landessprache auch gesellschaftlich relevant sind (siehe Entwurf).

Selbst im Zeitalter von Big Data, in einer bis in die Poren vernetzten Welt, ist es nach wie vor schwierig, korrekte und aussagekräftige Informationen in Bezug auf Sprachen zusammenzutragen.

Wir müssen uns eingestehen, dass die aktuellen Ansätze ihre Fehler haben; viel wichtiger ist aber noch, dass wir jetzt nicht aufgeben. Wir müssen wissen, wie es um die Sprachen der Welt im Netz steht, um besser einschätzen zu können, ob das Internet hält, was es verspricht.

Damit vielfältige, offene und gesunde Communities in und außerhalb des Webs gedeihen können, müssen wir das Internet der vielen Sprachen unbedingt weiter erforschen und unterstützen.

Weitere Links

Twelve years of measuring linguistic diversity in the Internet: balance and perspectives (Die Messung der Sprachenvielfalt im Internet über zwölf Jahre: Gleichgewicht und Zukunftsaussichten), Daniel Pimenta, Daniel Prado and Álvaro Blanco, UNESCO (2009)
The Inclusive Internet Index, The Economist Intelligence Unit
Internet Universality Indicators, UNESCO (2018)
Rising Voices Project, Global Voices