Imaginez que vous feuilletez les pages d’un livre écrit dans une langue que vous ne comprenez pas. Vous pouvez regarder les images, mais vous ne saisirez pas grand-chose du texte.

Des millions de personnes vivent une expérience similaire lorsqu’elles se connectent à Internet et essayent de naviguer sur le Web.

Les principaux logiciels, applications, systèmes d’exploitation et technologies vocales sont généralement développés uniquement en anglais et dans quelques langues pertinentes pour satisfaire des critères commerciaux.

Les personnes soucieuses de l’épanouissement de leur langue en ligne peuvent se joindre à des communautés pour traduire, localiser, écrire, dactylographier et tweeter dans un but précis, mais il est difficile pour une langue sous-représentée d’acquérir une pertinence sociale à côté d’autres langues majoritaires.

Pour les langues moins répandues ou écrites, il existe un risque que certains chercheurs appellent « l’extinction numérique », même dans les pays riches où la majorité de la population dispose d’une connexion Internet.

Prenons le cas de l’islandais, qui compte moins de 400 000 locuteurs. Ceux-ci sont habitués à passer à l’anglais pour donner des instructions vocales à leurs appareils et certains considèrent le manque de technologie disponible dans leur langue maternelle comme un facteur qui contribue à la domination de l’anglais et au déclin de l’islandais.

Les technologies multilingues et les traductions ne suffisent pas. Un Internet sain requiert des contenus localement pertinents qui reflètent véritablement les langues parlées et les expériences vécues par les internautes. Le manque de tels contenus propres au contexte local, n’importe où dans le monde, peut représenter un obstacle à l’adoption d’Internet ainsi qu’une expérience frustrante pour les personnes à la recherche d’informations.

À ce stade, vous vous interrogez probablement sur la portée de votre propre langue sur Internet… Toutefois, cela s’avère étonnamment difficile à évaluer. Comment mesureriez-vous la quantité de contenus adaptés à une population donnée ? Comment vérifier si la diversité linguistique s’améliore dans le monde entier ?

Une méthode courante consiste à comparer le nombre estimé d’internautes parlant différentes langues avec le pourcentage estimé de sites web dans ces langues. Cette évaluation offre des chiffres effarants. Par exemple, plus de 50 % du Web est en anglais, alors que seulement 25 % des internautes parlent anglais. Un élément que nous avions souligné dans la première version du Bulletin de santé d’Internet. Toutefois, ces chiffres doivent être pris avec des pincettes.

Daniel Pimienta de FUNREDES, un groupe d’action pour la recherche peu actif sur Internet, de République dominicaine, a remis en question la pertinence de ces méthodes populaires d’évaluation des langues sur le Web. En 2009, il a coécrit un article pour l’UNESCO qui décrivait comment les idées reçues qui surestiment la domination de l’anglais ont été normalisées à force de répétitions.

Par exemple, de nombreux chercheurs, y compris les membres de W3Techs, l’organisme qui avance les pourcentages précités, s’appuient sur le classement Alexa des sites web les plus populaires. Or, il ne représente qu’un minuscule pourcentage des milliards de pages que compte le Web. L’avantage est qu’il s’agit d’une liste garantie sans spam, sans noms de domaines non utilisés et autres pages non pertinentes, du moins pour les êtres humains.

Toutefois, nous n’avons pas d’informations sur la façon dont Alexa (un outil de marketing en ligne appartenant à Amazon) recueille ses données. Certains sites web installent un code Alexa pour faciliter le suivi des visites. De plus, Alexa indique qu’ils observent « des dizaines de millions » d’internautes au moyen de « plus de 25 000 extensions de navigateur », mais ils ne divulguent aucune indication relative au nombre d’internautes basés en Chine, par exemple.

De nombreux efforts sont actuellement déployés pour mesurer plus précisément la présence des différentes langues en ligne.

Daniel Pimienta propose une autre méthode de mesure qui repose sur des dizaines d’indicateurs disponibles pour calculer la « puissance » relative d’une langue, y compris les pages Wikipedia, les téléchargements de logiciels et les utilisateurs de médias sociaux. Ainsi, son estimation pour l’anglais se rapproche de 30 %.

L’Inclusive Internet Index évalue la part de contenus en langues locales dans 86 pays différents en sondant les citoyens pour savoir s’il existe des publications d’actualités nationales, des services publics en ligne, des sites web consacrés à la santé, aux finances et au divertissement.

À l’UNESCO, un processus qui vise à élaborer de nouveaux indicateurs de l’universalité d’Internet est également susceptible d’inclure une mesure de la pertinence du contenu en langues locales (voir le projet).

Même à l’heure du Big Data et dans un monde hyperconnecté, la collecte d’informations précises et pertinentes sur la diversité linguistique en ligne reste un défi.

S’il est important de reconnaître les faiblesses des approches actuelles, il est par ailleurs essentiel de ne pas abandonner. Nous devons savoir comment les langues du monde se portent en ligne, afin de mieux évaluer si Internet tient ses promesses.

Pour des communautés diversifiées, accessibles et saines, en ligne et hors ligne, nous devons poursuivre nos efforts afin de comprendre et de soutenir un Web multilingue.

Pour en savoir plus :

Twelve years of measuring linguistic diversity in the Internet: balance and perspectives, Daniel Pimenta, Daniel Prado et Álvaro Blanco, UNESCO, 2009
The Inclusive Internet Index de The Economist Intelligence Unit
Internet Universality Indicators, UNESCO, 2018
Rising Voices Project, Global Voices