À l’occasion de la journée internationale de la traduction (30 septembre), nous avons voulu nous pencher sur un sujet qui fait rêver plus d’un globe-trotter : le traducteur universel instantané. Un petit appareil qui permettrait de traduire instantanément n’importe quelle langue, comme on le voit souvent dans les films de science-fiction.
Existe-t-il déjà des appareils qui s’en approchent ? Malheureusement, non. D’énormes moyens financiers ont pourtant été débloqués ces deux dernières décennies pour arriver à créer une telle technologie. La demande est grande, l’attente du public l’est encore plus, comme peut en témoigner le succès cet appel à crowdfunding destiné à concevoir une oreillette permettant une traduction instantanée, et qui a levé un million de dollars en seulement deux heures.
Malheureusement, ces appareils sont imparfaits : nombre restreint de langues supportées, traduction imparfaite, nécessité de faire porter une oreillette et/ou un micro à son interlocuteur, connexion internet obligatoire… Ils ne sont pas faciles d’utilisation, et leurs traductions laissent souvent à désirer.
Alors, qu’est-ce serait un traducteur universel plausible ? Où en est la recherche ? Est-il seulement possible de créer une telle technologie ? Qu’en est-il des appareils qui existent actuellement sur le marché ?
Pourquoi est-il si difficile d’inventer un traducteur universel ?
Même si les technologies de traduction ont fait d’énormes progrès ces dernières années, quiconque a déjà utilisé un programme de reconnaissance vocale en connaît les turpitudes. Cortana, Alexa, Siri ou Google Assistant ne comprennent pas parfaitement tout ce que vous leur dites.
Le problème de l’enregistrement audio
Or, les technologies actuelles de traduction fonctionnent toutes sur le même principe :
– Enregistrer quelqu’un qui parle
– Convertir ce fichier audio en fichier texte
– Traduire ce texte
– Convertir ce texte en fichier audio lu par une voix synthétique
– Lire ce fichier audio
Les deux principales difficultés sont la conversion audio/texte, et la traduction en elle-même. Il est très difficile de retranscrire un fichier audio en texte : les intelligences artificielles actuelles sont incapables de restituer correctement les noms propres, par exemple. Il leur est également difficile de prendre en compte le ton employé (pourtant essentiel pour traduire le chinois, par exemple), de suivre le rythme de quelqu’un qui parle vite ou articule mal, de retranscrire l’accent mis sur certains sons, de retranscrire des sous-entendus, etc.
Le problème de la traduction
Mais, dans la quête du traducteur universel, le principal problème à résoudre est celui de l’intelligence artificielle.
Les logiciels de traduction qui existent à l’heure actuelle, comme Google Translate, fonctionnent tous sur le même principe de base : accumuler des tonnes de textes. Mais pas n’importe lesquels : il faut que ces textes soient les mêmes, mais traduits dans plusieurs langues différentes. Il s’agit, par exemple, de rapports de l’ONU, de romans, de la Bible, d’Harry Potter, ou des textes officiels issus de gouvernements plurilingues comme le Canada.
Un traducteur automatique nécessite plusieurs centaines de millions de textes, dans deux langues différentes, pour réussir à fonctionner correctement. Pour certaines paires de langues, c’est facile : le gouvernement canadien traduit tous ses documents du français vers l’anglais et vice-versa, créant ainsi des « textes miroirs » qui disent la même chose, qu’un traducteur automatique peut ensuite comparer et analyser.
C’est la raison pour laquelle Google Translate fonctionne mieux dans certaines langues que d’autres. Mais pour la très grande majorité des langues, il n’existe pas suffisamment de « textes miroirs » pour alimenter une telle base de données.
Une autre façon de faire est d’utiliser une langue tierce, qui sert d’intermédiaire. Il s’agit, par exemple, de traduire un texte français vers l’anglais, puis de le retraduire de l’anglais vers l’espagnol. Cela fonctionne très bien pour traduire un seul mot ; mais ce système dénature considérablement les phrases ainsi traduites.
Où en est-on dans la recherche d’un traducteur universel ?
Autrefois réservé au domaine de la science-fiction, le traducteur universel fait néanmoins l’objet d’énormes investissements de recherche de la part des plus grandes entreprises du monde : Google, Microsoft, Amazon… toutes ont mis en place un programme de recherche très ambitieux destiné à créer un traducteur universel.
Nous n’aborderons pas ici la multitude d’appareils électroniques faussement dénommés « traducteurs universels », qui existent déjà sur le marché, tel que le Pocketalk, un petit boîtier dans lequel on insère une carte sim et qu’on porte autour du cou. En effet, tous ces appareils reposent sur une technologie tierce : ainsi, pour fonctionner, le Pocketalk a besoin d’être connecté aux services de Google Translate. Autant s’intéresser directement à ces technologies en elles-mêmes.
Le programme MATERIAL
Le IARPA (Intelligence Advanced Research Projects Activity) est un organisme militaire américain, chargé d’orienter les programmes de recherche des services de renseignements nationaux. Leur mission est la suivante : « imaginer et diriger des recherches à fort risque et fort impact débouchant sur des technologies innovantes aux avantages futurs considérables pour le renseignement ». La traduction fait partie de leurs principales priorités.
En effet, le IARPA a lancé un programme de recherche à très long terme avec, pour objectif, de créer une technologie capable de traiter et de traduire une quantité astronomique de textes ou de documents audio, issus de n’importe quelle langue, et de les traduire en anglais. Il s’agit du programme MATERIAL pour Machine Translation for English Retrieval of Information in Any Language.
Le principe de ce programme est d’accumuler des informations provenant de toutes les sources d’informations possibles et imaginables du monde entier : réseaux sociaux, presse, radio, programmes TV, blogs, etc. Et ce, à des fins d’analyse, de recherche et de recoupement d’informations, ou de veille, par exemple.
MATERIAL, codéveloppé avec des institutions prestigieuses telles que le MIT, Columbia, ou la John Hopkins University, de par ses moyens et ses ambitions, est probablement le programme de recherche le plus proche de développer un véritable traducteur universel.
Google Translate
Mais c’est Google translate qui est, actuellement, la technologie de traduction qui se rapproche le plus d’un traducteur universel. C’est d’ailleurs la plus utilisée : en octobre 2020, près de 500 millions d’utilisateurs ont cherché à traduire plus de cent milliards de mots chaque jour, dans 109 langues différentes.
L’histoire de Google Translate remonte à 2006. Il s’agissait, au départ, d’une technologie de traduction basée sur la statistique : en comparant le même texte traduit dans deux langues différentes, et en répétant ce processus sur des millions de textes différents, l’intelligence artificielle sélectionnait les occurrences les plus probables pour traduire un mot ou une phrase donnée.
Cependant, en novembre 2016, Google a annoncé que sa technologie Translate se reposerait dorénavant sur une technologie de traduction neuronale. Le principe est complètement différent : plutôt que de traduire mot à mot et sélectionner le terme « le plus probable », la technologie neuronale prend en compte plusieurs phrases en même temps, utilisant un contexte plus large pour traduire, de façon plus précise, des textes. Enfin, l’intelligence artificielle réajuste sa traduction de sorte que les phrases paraissent plus naturelles ; plus humaines.
La technologie de traduction neuronale ne date que de 2014. Ses balbutiements sont néanmoins très prometteurs et, combiné au développement de nouvelles technologies informatiques (ordinateur quantique, par exemple), cela laisse penser que la décennie 2020 sera une étape clé dans le développement d’un véritable traducteur universel.