Exercez vos cordes vocales, car bientôt la saisie manuelle appartiendra à l’histoire ancienne.

Michael Henretty
Michael Henretty. Photo de Kasia Odrozek (CC BY-SA 4.0)

Progressivement, les machines apprennent à reconnaître différentes langues, différents mots et accents. Avec l’amélioration de la reconnaissance vocale, un nombre croissant d’ordinateurs et d’appareils « écouteront » vos indications et vos instructions, qu’ils arriveront même à comprendre.

Le risque de ne pas prendre ce virage technologique existe pour les développeurs travaillant sur de petits projets, qui n’ont pas accès aux volumineuses bases de données de la reconnaissance vocale, comme celles d’Amazon, de Microsoft ou d’Apple, ainsi que pour les internautes qui parlent des langues minoritaires ou des dialectes.

Lancé par Mozilla, Common Voice représente l’un des rares projets qui visent à créer un ensemble de données vocales libre et accessible au public que tout un chacun a le loisir de télécharger et d’utiliser.

Par l’association de centaines d’heures d’enregistrements vocaux et de leur transcription, l’ensemble de données est en mesure d’apprendre aux ordinateurs à comprendre des voix. Pour soutenir cette initiative, des milliers de personnes ont fait don d’enregistrements de leur propre voix à Common Voice au moyen d’une simple interface web.

Cette année, Common Voice s’ouvre à d’autres langues que l’anglais. Michael Henretty, un stratège numérique affilié à l’équipe en charge de l’innovation ouverte chez Mozilla, fait preuve d’optimisme quant à l’avenir de la technologie vocale à code ouvert, mais reconnait qu’il reste beaucoup à accomplir.

Quelle utilisation imaginez-vous pour les données de Common Voice dans le futur ?

Nous nous servons des données vocales en anglais pour améliorer le propre moteur de reconnaissance vocale de Mozilla, DeepSpeech, et nous espérons permettre à d’autres d’améliorer également leurs outils à code source ouvert.

Nous avons déjà constaté que certains projets intègrent ces données, à l’instar de projets  libres populaires tels que Kaldi. De plus, nous sommes en discussions avec plusieurs universités pour que ces données servent de matériel d’étude.

Toutefois, le principal objectif de Common Voice reste probablement la mise à disposition de la technologie vocale pour les langues et les communautés en marge des principaux marchés. Par exemple, la reconnaissance vocale ne pourrait-elle pas être employée par des locuteurs de langues minoritaires pour accéder à la technologie et aux services qu’offre Internet, même si ces personnes ne savent pas lire ?

Quelles mesures adoptez-vous pour assurer votre développement et prendre en charge différentes langues ?

Nous collaborons avec un remarquable projet de traduction à code source ouvert, Tatoeba, pour permettre à un plus grand nombre de communautés de collecter des données vocales dans la langue, le dialecte et avec l’accent de leur choix. De plus, nous avons le projet de rendre l’interaction avec notre site web plus amusante. Pour l’instant, environ 10 % seulement des internautes qui consultent le site proposent leur voix et, pour la plupart, ne la donnent qu’une fois. Nous étudions donc les possibilités de rendre l’utilisation de Common Voice plus sociale et plus gratifiante.

Pour en savoir plus :

Common Voice de Mozilla
Google, Mozilla and the Race to Make Voice Data for Everyone, Fast Company, 2017