Empieza a precalentar tus cuerdas vocales, porque escribir en un teclado pronto estará pasado de moda.

Michael Henretty
Michael Henretty. Foto de Kasia Odrozek (CC BY-SA 4.0)

Poco a poco, a las máquinas se les está enseñando a reconocer diferentes idiomas, palabras y acentos. A medida que mejora la tecnología de reconocimiento de voz, más computadoras y dispositivos “escucharán” tus órdenes, y hasta entenderán lo que quieres.

Quienes están en riesgo de quedarse rezagados en este nuevo cambio tecnológico son los pequeños programadores de software, porque no tienen acceso a las enormes bases de datos de reconocimiento de voz que si tienen empresas como Amazon, Microsoft, o Apple. También afectará a los usuarios de internet que hablan idiomas o dialectos poco conocidos.

El proyecto Common Voice (Voz Común) de Mozilla es una de las pocas iniciativas que buscan crear un conjunto de datos de voz que esté disponible abierta y públicamente para que todos puedan usarlo libremente.

Al relacionar cientos de horas de grabaciones de audio con palabra escritas, el conjunto de datos obtenido puede enseñar a las computadoras a entender diferentes voces. Para apoyar esta iniciativa, miles de personas han donado grabaciones de su voz a Common Voice a través de una simple interfaz web.

Este año, Common Voice se está expandiendo para incluir otros idiomas además del inglés. Michael Henretty, estratega digital que trabaja en el equipo de innovación abierta de Mozilla, es optimista sobre el futuro de la tecnología de voz de fuente abierta, pero visualiza que aún hay mucho trabajo por hacer.

P: ¿Cómo imaginas que serán usados los datos de Common Voice en el futuro?

R: Estamos usando recolección de datos de voz en inglés para mejorar DeepSpeech, el motor de reconocimiento de habla de Mozilla, y esperamos que esto también permita que otros mejoren sus motores de fuente abierta.

Ya hemos visto algún grado de adopción, con reconocidos proyectos de fuente abierta como Kaldi que están integrando los datos. También estamos en conversaciones con varias universidades para usar estos datos para iniciativas de investigación.

Pero probablemente el objetivo más importante de Common Voice es llevar la tecnología del habla a idiomas y comunidades donde las fuerzas del mercado tienden a ser más lentas. Por ejemplo, ¿podrá el reconocimiento de voz ser usado por quienes hablan dialectos o lenguas poco conocidas para permitir que más personas tengan acceso a la tecnología y los servicios que internet puede brindar, aun cuando ellos nunca hayan aprendido a leer?

P: ¿Qué pasos está dando tu equipo para crecer y ser multilingüe?

R: Estamos trabajando con un excelente proyecto de traducción de fuente abierta, Tatoeba, para permitir que más comunidades recolecten datos de voz en cualquier idioma, dialecto y acento que quieran. Aparte de esto, estamos trabajando muy duro para que interactuar con nuestro sitio web sea entretenido. Hasta ahora, solo cerca del 10 % de las personas que visitan el sitio llega a donar su voz. Y quienes la donan, usualmente lo hacen solo una vez. Así es que estamos viendo cómo lograr que Common Voice sea cada vez más social y gratificante.

Lectura adicional:

Common Voice por Mozilla
Google, Mozilla y la carrera para hacer datos de voz para todos, Fast Company, 2017.