Observaciones acerca del traductor de quechua, aymara y guaraní de Google Translate

Hay que reconocer el nuevo traductor de quechua, aymara y guaraní de Google Translate (https://translate.google.com) por valorar las lenguas indígenas. Sin embargo, el traductor tiene varios problemas todavía y es necesario mejorarlo para que sea útil para el público boliviano.

El traductor quechua es basado en el quechua chanka de Ayacucho. El traductor debería indicar que la lengua es “quechua chanka” en lugar de solo “quechua”, porque quechua es una familia de lenguas que contiene mucha variación. Para un quechua-hablante de Cuzco, Huancayo, Ancash, Bolivia, Ecuador o Argentina, el traductor de Google esta produciendo algo como catalán o gallego para un castellano-hablante. El traductor no es muy útil para los quechua-hablantes de Bolivia, que tienen 10 letras adicionales en su alfabeto (CH’, CHH, K’, KH, P’, PH, Q’, QH, T’, TH) que no existen en el quechua chanka. El traductor castellano→quechua produce texto en el dialecto chanka sin las letras glotalizadas y aspiradas del quechua boliviano, entonces no distingue palabras como tanta (juntos), t’anta (pan) y thanta (usado/viejo), porque todas esta palabras son representadas como tanta por el traductor.

Otro problema es que el quechua chanka contiene varios sufijos que no existen en el quechua boliviano como los comentarios de clausula -mí, -sí y -chá, el disculpativo -iki, el vocativo -ya, el efático reportativo -sá y el distributivo equitativo -nka. El sufijo atestiguativo -m / -mi es muy común el quechua chanka y cuzqueño, pero no es utilizado por la mayoría de quechua-hablantes de Bolivia, y el sufijo reportativo -s / -si no es entendido en algunas regiones de Bolivia. El sufijo aditivo -pas es generalmente pronunciado como -pis en Bolivia. Con estas diferencias de dialecto, el traductor castellano→quechua produce texto que puede causar confusión para los quechua-hablantes de Bolivia.

Aparte de estos problemas dialectales, hay algunos problemas en las traducciones producidas por Google Translate. Por ejemplo:

Véndeme estas llamas. → Kay nina rawraykunata rantikuway.

La traducción dice literalmente “Véndese este fuego fuegos”. Debería ser: Kay llamakunata rantiway. Google traduce “llama” en el sentido de “flama” (de un fuego), que es un error entendible porque la palabra tiene dos sentidos, pero debe traducirlo como “nina” o “rawray”, en lugar de usar ambas palabras que son sinónimos. Además, no hay razón incluir el sufijo reflexivo -ku porque el verbo no es reflexivo.

Me gusta pan. → Tanta gustan.

Debería ser: Tanta gustawan. Sin el objeto indirecto de primera persona -wa, la traducción de Google significa “el pan gusta”.

Me lo pidió. → Nispa tapuwarqa.

Debería ser: Mañawarqa. Lo ha traducido como “diciendo me preguntó”. No hay razón aumentar Nispa (“diciendo”) y debe usar el verbo mañay, que significa “prestar” o “pedir” en lugar de tapuy (“preguntar”).

Quiero usar el baño. → Quiero utilizar el baño.
Voy al baño. → Bañomanmi rini.

Parece que texto castellano fue mezclado con el texto de quechua en el entrenamiento del traductor de quechua, porque a veces castellano sale en lugar de quechua, pero con otras palabras de castellano como en el primer ejemplo que convierte “usar” a “utilizar”. En el segundo ejemplo, la frase es traducida al quechua, pero contiene el sufijo atestiguativo -mi, que la mayoría de quechua-hablantes bolivianos no reconocen.

El traductor de quechua→castellano es mejor que el traductor castellano→quechua. Parece que el traductor quechua→castellano fue entrenado con textos de ambos quechua chanka y quechua cuzqueño, y el quechua boliviano esta cerca del quechua cuzqueño, entonces el traductor puede reconocer algunas variaciones dialectales y puede traducir la mayoría de texto introducido por un quechua-hablante boliviano. Por ejemplo, puede reconocer diferentes formas del modo progresivo en verbos. Traduce correctamente ruwachkani (la forma normalizada, usado en Ayacucho y el norte de La Paz), ruwashani (usado en Cuzco, Chuquisaca y partes de Cochabamba), ruwasani (usado en partes de Cochabamba) y ruwashiyani / ruwashiani (usado en partes de Potosí) como “estoy haciendo”.

Sin embargo, el traductor de quechua→castellano también puede producir errores gramaticales. Por ejemplo:

Lluqsichkani. → Voy a salir.

Debería ser: Estoy saliendo. Google está confundiendo el modo futuro por el modo de presente progresivo.

Parece que Google esta usando machine learning (entrenamiento por maquina) para crear su traductor de quechua y aymara en lugar de programación manual de la gramática. Con machine learning el traductor aprende por analizar grandes cantidades de traducciones, pero el traductor puede hacer errores como confundir el futuro por el presente progresivo si las traducciones de entrenamiento hacen el mismo error. Por esta razón es muy importante que el traductor sea entrenado con traducciones exactas y Google no utiliza cualquier texto encontrado en el internet sin revisión de un experto en la lengua para asegurar que las traducciones de entrenamiento sean buenas.

Lastimosamente el traductor de aymara sufre de los mismos problemas como el traductor de quechua y puede producir texto equivocado. Por ejemplo:

Voy a mi casa. → Utar kutt’aña.

A menudo el traductor aymara no agrega los posesivos (-ja, -ma, -pa y -sa) y no esta conjugando muchos verbos correctamente, que se puede observar en este ejemplo, que es traducido literalmente como “regresar a casa”, con el verbo en el modo infinitivo y sin el posesivo “mi”. Debería ser: Utajar sartwa.

Estoy yendo al cine. → Nayax cine ukar sarañ munta.

Google traduce esta frase como “yo quiero ir al cine”, que cambia su sentido. Además, falta el sufijo -wa para una oración afirmativa. Debería ser: Nayax cine ukar sarasktwa.

Me dio la plata. → Jupaw uka qollqe churitu.
¿tienes plata? → qullqix utjtamti?

Otro problema es que el traductor está mezclando los alfabetos de tres vocales (A, I, U) y cinco vocales (A, E, I, O, U). Por ejemplo, “plata” es traducida como qollqe o qullqi en diferentes ocasiones.

Dame pan. → Tʼantʼa churapjjeta.
Ellos miran la televisión → Jupanakax TV uñch’ukipxi.

En algunas ocasiones el traductor utiliza escritura de alfabetos anticuados como el uso de JJ en lugar de X, como se puede observar el sufijo -pxi, que es deletreado como -pjje en el primer ejemplo.

Google debería excluir todo el texto que utiliza 5 vocales y alfabetos anticuados para evitar confusión en la ortografía cuando está entrenando el traductor.

Quechua y aymara son lenguas aglutinantes que contienen más que 100 sufijos diferentes, y estos sufijos pueden ser combinados. Una raíz en quechua y aymara puede formar medio de millón de palabras con la combinación de sufijos. Algunos sufijos excluyen a otros sufijos, y hay un orden en la combinación de sufijos. Además la lengua aymara tiene reglas muy complicadas de elisión vocálica que no existen en quechua. Teófilo Laime ha documentado 5 clases de sufijos aymaras según sus diferentes reglas de elisión vocálica.

Para aprender las reglas complicadas de morfosintaxis en una lengua aglutinante, el entrenamiento de un traductor de quechua y aymara requiere mucho más texto que el entrenamiento de una lengua indoeuropea como inglés o castellano donde los sufijos generalmente no son combinados. Probablemente Google no tuvo mucho texto para entrenar el traductor de quechua y aymara, porque menos texto es publicado en estas lenguas. Tal vez sería mejor programar manualmente las reglas de morfosintaxis en lugar de usar machine learning para aprenderlas, y los Institutos de Lengua y Cultura de Quechua y Aymara pueden proporcionarle estas reglas a Google.

El traductor de guaraní produce traducciones adecuadas, pero es basado en el guaraní de Paraguay, que utiliza otro alfabeto que el guaraní de Bolivia. El alfabeto boliviano utiliza la diéresis (¨) para designar vocales nasales en lugar de la tilde de la eñe (~) en el alfabeto paraguayo, y utiliza el I cortado (Ɨ) en lugar del Y. El guaraní boliviano contiene las vocales A,Ä,E,Ë,I,Ï,Ɨ,Ï,O,Ö,U,Ü que corresponden a las vocales A,Ã,E,Ẽ,I,Ĩ,Y,Ỹ,O,Õ,U,Ũ en el guaraní paraguayo.

La cuestión es si Google está dispuesto colaborar con los Institutos de la Lengua y Cultura de Bolivia para mejorar la traducción de quechua, aymara y guaraní, y ofrecer un traductor afinado para los dialectos de Bolivia. En otras lenguas Google Translate generalmente no ofrece variaciones dialectales, pero quechua es una familia de lenguas. Si Google Translate ofrece castellano, gallego y catalán que son variantes de lenguas iberorromances, también debería ofrecer variantes de quechua, porque la familia de quechua contiene mucha variación como las lenguas iberorromances.

Google Translate puede ser una herramienta maravillosa para las lenguas originarias de Bolivia porque soporte 133 lenguas diferentes. Puede traducir quechua, aymara y guaraní a lenguas extranjeras como chino, ruso, persa, etc. Sin embargo, sólo traduce hasta 5000 palabras por gratis. Para traducir documentos con más palabras, es necesario pagar por el uso de Cloud Translate que cobra US$ 0,08 por página o US$ 20 por mes por cada millón caracteres de traducción. Ver los detalles: https://cloud.google.com/translate/pricing Lastimosamente la interfaz de Cloud Translate no es para usuarios normales sin conocimiento técnico. Es una API (interfaz de programación de aplicación) que es llamado por código REST, entonces el servicio pagado no es muy útil para el público boliviano.

Google Translate es software privativo y la política del Estado boliviano promueve el uso de software libre, según la Ley No. 164. Ley General de Telecomunicaciones, Tecnologías de Información y Comunicación promulgada el 8 de Agosto de 2011, que estipula:

Art 77. Software Libre Los órganos ejecutivo, legislativo, judicial y electoral, en todos sus niveles promoverán y priorizarán la utilización del software libre y estándares abiertos, en el marco de la soberanía y seguridad nacional.

El órgano ejecutivo del nivel central del Estado elaborará el plan de implementación de software libre y estándares abiertos en coordinación con los demás órganos del Estado y entidades de la administración pública.

A pesar de esta ley, Google Translate ya es muy utilizado por el público boliviano. Existen otros buscadores de internet como Bing, Yahoo! y DuckDuckGo, pero Google controla 92% de las búsquedas por internet, entonces el traductor de Google va a ser utilizado cada vez que se busca como decir palabras en quechua, aymara o guaraní. Por esa razón, se recomienda que los Institutos de Lengua y Cultura (ILCs) de Bolivia colaboren con Google para mejorar su traductor en estas lenguas originarias. Los ILCs pueden ofrecer revisar los textos de entrenamiento utilizados por el traductor para mejorarlo y pueden proporcionarle a Google más traducciones y las reglas de gramática y morfosintaxis para entrenar el traductor.

Estos mismos textos de entrenamiento también pueden ser re-utilizados para crear un traductor de software libre que no tiene restricciones de licencia y puede ser afinado para las variantes de Bolivia. Se recomienda que los ILCs colaboren con Google para mejorar su traductor, porque sería una oportunidad para crear textos de entrenamiento para un futuro traductor de software libre.

Los ILCs pueden aprovechar de Argos Translate, que es una librería de software libre de Python que utiliza  OpenNMT para realizar traducciones, SentencePiece para tokenization (romper frases en sus componentes gramaticales), Stanza para detectar los bordes de frases y PyQt para proveer la interfaz gráfica de usuario (GUI). El sitio LibreTranslate.com que actualmente ofrece traducciones en 29 lenguas es basada en Argos Translate. Con Argos Translate, los ILCs pueden construir sus propios traductores que son afinados para los dialectos y idiomas de Bolivia.

–Amos B. Batto
Cel: (591)76585096
Email: amosbatto@yahoo.com

3 thoughts on “Observaciones acerca del traductor de quechua, aymara y guaraní de Google Translate

  1. Muy acertada su exposición , aquí la pregunta , cómo podríamos mejorar, apoyar , colaborar, para que nuestro runa simi – Quechua sea inclusivo a otras variaciones regionales y dialectales de los quechua parlantes/ hablantes? Muchas gracias
    YUPAYCHAYKI ANCHATA

    • Julia, Hay que crear traductores para cada dialecto y es posible con las herramientas de software libre, pero el desafio es conseguir financiamiento para lograrlo.

  2. Muy interesante la investigación sobre las diferencias regionales y dialectales de nuestro Runa simi Quechua . Para seguir perpetuando , y difundiendo con nuestras generaciones futuras y jóvenes , deberíamos abrir más sitios partiendo de lo más básico y llegar a lo más avanzado .
    PACHI
    Tinkuna Kama
    Tupananchus kama

Agregue un comentario

Su dirección de correo no se hará público.