Par Anne Cagan le 09 mai 2019
Directeur de recherche au CNRS, Thierry Poibeau publie aujourd’hui “Babel 2.0” aux éditions Odile Jacob. Il nous explique pourquoi les machines sont devenues de bien meilleures traductrices. Et pourquoi elles continuent malgré tout de proposer parfois des réponses complètement à côté de la plaque.
Les outils de traduction automatique marchent de mieux en mieux. A quoi est-ce lié?
On a changé d’approche il y a quelques années et cela a permis de gros progrès. Depuis les années 90, on utilisait surtout l’approche statistique qui avait beaucoup amélioré la discipline. Cette approche exploite des corpus de textes alignés c’est à dire des textes où l’on a une version dans la langue source (ex: l’anglais ) et une version dans la langue cible (ex: le français). Cela permet de trouver des équivalences au niveau des mots, des expressions et d’assembler petit à petit une phrase. Mais récemment, une nouvelle approche a permis d’aller plus loin : le deep learning. Cette méthode permet d’étudier la fréquence avec laquelle les mots apparaissent à proximité les uns des autres. Même si on n’encode pas le sens, analyser ces récurrences permet de constituer des classes de mots, des familles de sens très homogènes. Avec le deep learning, on ne se contente plus d’assembler des bouts de mot, d’expressions. On a une représentation directe de la phrase. Et l’analyse du contexte permet d’identifier plus facilement la traduction la mieux adaptée. Si le terme avocat apparaît dans une phrase qui suggère un contexte juridique, la traduction proposée en anglais sera par exemple « lawyer » et non « avocado » (ndlr: le fruit).
Dans quels cas la traduction automatique risque-t-elle de se tromper ?
Avec le deep learning, la hausse de puissance de calcul et celle des volumes de données disponibles, le niveau global est devenu bon. Mais ces outils ont encore leurs limites. Ils ont souvent du mal à traiter les expressions figées comme “pleuvoir à verse”. Si la langue est très éloignée de l’anglais en terme de typologie linguistique, le risque d’erreur est également plus élevé. L’arabe ou le finnois, par exemple, sont des langues dans lesquelles un même mot peut avoir beaucoup de variations (selon qu’il est sujet ou objet, qu’il s’accompagne d’un possessif, etc.) Ce genre de choses va être plus complexe à traiter.
Un autre problème que l’on rencontre est celui des langues pour lesquelles nous avons peu de données. Il faut enfin garder en tête que les outils proposent en général une traduction très littérale. Dans certains cas (sur des textes techniques par exemple), cela peut s’avérer parfaitement adapté. Mais sur de la poésie ou certains types d’œuvres littéraires, ça l’est parfois moins.
Aurons-nous bientôt des appareils capables de traduire fidèlement et en temps réel ce que quelqu’un nous dit ?
C’est sans doute le champ d’application qui attire le plus d’investissements. Pour le moment, c’est encore un peu de la science-fiction mais je pense que d’ici cinq ou dix ans, il y aura de la traduction en direct, peut-être pas parfaite mais utilisable.
“Babel 2.0” par Thierry Poibeau aux éditions Odile Jacob.