Javier Cortés 7 de julio de 2019
Una de las joyas más preciadas del Museo Británico es una piedra de poco más de un metro de alto por 75 centímetros de ancho que pesa más de 700 kilos. Una piedra que, a diferencia de buena parte de las obras de arte que alberga la galería, no está esculpida, sino tallada. La piedra de Rosetta no es famosa por su estética ni por su contenido literario, sino por lo que significó para descifrar los jeroglíficos egipcios. A partir de un texto tallado con tres sistemas de escritura diferentes, fue posible construir un alfabeto fonético de caracteres jeroglíficos que se convirtió en un inestimable punto de partida para la posterior transliteración de estos símbolos egipcios.
Para el ser humano, fue necesario contar con una transcripción del mismo texto utilizando tres sistemas de escritura, pero, para una máquina, tal vez no sea necesaria tanta información. Los sistemas de traducción automática evolucionan a un ritmo imparable gracias a la inteligencia artificial y al machine learning. Aunque su función principal es indiscutible -ayudar a las personas a comunicarse con quienes hablan o escriben en un idioma diferente al suyo-, también pueden ser de utilidad para descifrar lenguas de las que ya no se conocen interlocutores.
Un equipo de investigadores del laboratorio de inteligencia artificial de Google en Mountain View (California) ha desarrollado un sistema de aprendizaje automático capaz de traducir lenguas muertas. Su mayor hallazgo ha sido descifrar, por primera vez de forma automática, el sistema de escritura lineal B, aunque para ello han recurrido a técnicas muy diferentes de las que utilizan habitualmente los algoritmos de traducción simultánea.
¿Lineal qué?
Para entender de qué estamos hablando, empecemos por presentar a sir Arthur Evans, un arqueólogo británico que, en 1900, desenterró el Palacio de Cnosos en Creta. Allí encontró multitud de tablillas y piedras con inscripciones que suponían los primeros vestigios de dos sistemas de escritura extintos: lineal A, que se utilizó entre 1800 y 1400 antes de Cristo; y lineal B, que se empleó después de esta fecha.
Por mucho que Evans y otros expertos trataran una y otra vez de descifrar ambos lenguajes, fue Michael Ventris, un arquitecto aficionado a la lingüística, quien, medio siglo más tarde, fue capaz de dar sentido al sistema lineal B. Su punto de partida fue que algunas de las palabras que más se repetían en el vocabulario de este sistema eran topónimos cretenses y que las grafías representaban una forma temprana del griego antiguo. Su trabajo fue un gran éxito, pero, hasta la fecha, nadie ha sido capaz de descifrar el lineal A. ¿Podrán hacerlo algún día las máquinas?
Los algoritmos de Google consiguieron descifrar los textos escritos en lineal B con un 67,3% de precisión. No obstante, hay que reconocer que partían con cierta ventaja: sabían que esta escritura codifica una versión temprana del griego antiguo. El caso de lineal A, con el que no se han atrevido todavía, es más complejo, ya que no se conoce qué idioma codifica este sistema y, sin un punto de partida, la inteligencia artificial todavía no puede hacer demasiado. La ventaja del enfoque informático es que la máquina podría probar con diferentes idiomas una y otra vez hasta encontrar una aproximación que tenga cierto sentido. Pero, una vez que lo encuentre, ¿cómo hará para descifrarlo?
¿Cómo traduce un algoritmo una lengua muerta?
Los algoritmos pueden trabajar con enormes bases de datos de distintos idiomas que pueden comparar, un proceso del que aprenden a medida que avanzan y del que pueden sacar conclusiones interesantes. Como consecuencia de esto, la traducción se ha convertido para las máquinas en una tarea rutinaria que constituye en sí misma una nueva manera de pensar sobre el lenguaje.
Como explican en la revista MIT Technology Review, la gran idea que persiste detrás de la traducción automática es comprender que las palabras están relacionadas entre sí de manera similar, independientemente del idioma involucrado. El proceso de aprendizaje de la máquina comienza en la búsqueda de patrones en un lenguaje específico. El sistema procesa millones de líneas de texto y detecta pautas, como la frecuencia con la que aparece una palabra junto a otra. Esto sitúa cada palabra en un marco, como un vector dentro de un espacio, restringiendo la forma en la que puede aparecer en una oración.
Estos vectores, señalan desde el MIT, obedecen reglas matemáticas simples. Reglas que designan género y número (un actor con el rasgo femenino es una actriz; con el rasgo plural, hablaremos de actrices), relaciones entre palabras (un padre requiere de la existencia de un hijo; un verbo transitivo, de la existencia de sujeto y complemento directo) y otras cuestiones que permiten enmarcar cada palabra en un espacio muy similar independientemente del idioma que empleemos. Con este enfoque, los algoritmos pueden traducir oraciones encontrando trayectorias similares en el espacio sin tener por qué saber lo que significan.