Traduction, reconnaissance d’images, etc : vers une intelligence artificielle à tout faire ?

304
0
Share:
intelligence artificielle et traduction

Récemment, le géant de l’internet, Google, et MIT ont mis en place un modèle de Deep Learning qui soit capable de prendre en charge plus de 8 taches différentes. On se dirige alors vers une intelligence artificielle qui serait capable de tout faire, ou presque. Il s’agit d’un modèle d’Algorithme capable de fournir de bons résultats dans de multiples domaines : sous-titrages, reconnaissance vocale, etc. Zoom sur cette innovation technologique qui va plaire plus d’un.

Un modèle unique, 8 jeux de données

Il faut dire que ce n’est pas la première fois que des chercheurs étudient les modèles de Deep Learding multitâches. De plus, on sait bien que les modèles de traitement de langage ou de traduction automatique bénéficient d’un apprentissage largement diversifié. Cependant, selon Google, tous ces modèles sont formés à d’autres taches du domaine, notamment les taches de traduction qui sont entraînées avec d’autres taches de traduction. On a aussi les taches de vision qui sont aussi entraînées avec d’autres taches de vision. Les chercheurs de MIT estiment que Google est un allié de taille pour aller un peu plus loin dans cette forme d’intelligence artificielle, notamment sur la traduction de brevet. De plus, les résultats qu’ils ont pu obtenir depuis lors sont assez encourageants et « une bonne performance » a été notifiée dans le rapport des scientifiques. En ce moment, les chercheurs attendent de mieux améliorer leurs travaux.

Une architecture multimodale

En ce moment, le principal intérêt de ces travaux réside dans le fait qu’il est possible d’assembler les techniques les plus avancés dans un modèle cohérent, et ceci, dans chaque domaine (réseaux de neurones de très grande taille, convolutions séparables en profondeur, réseaux de neurones avec mécanisme d’attention). Ce qui permettra de détecter les premiers signes intéressants de cet attelage. À noter que les neurones de grande taille et ceux qui sont dotés de mécanismes d’attention permettent d’améliorer légèrement la performance du modèle, surtout en ce qui concerne la reconnaissance des images. Selon les chercheurs, il s’agit d’ailleurs de la tâche qui a le moins besoin de ces techniques. Il faut le dire : la clé du succès de ce projet va provenir de la conception d’une architecture multimodale dans laquelle le plus grand nombre de paramètres sera partagé. Ce qui permettra sans doute d’ouvrir le chemin vers des travaux intéressants dans le domaine de l’apprentissage à travers l’existence d’un transfert d’apprentissage.

Share:

Leave a reply