Bonaventure Dossou et Chris Emezue

«African intellectuals must do for their languages and cultures what all other intellectuals in history have done for theirs.»
Cette déclaration de l’écrivain Kenyan Ngugi wa Thiong’o est à l’origine de nos recherches sur le NLP Africain (Traitement du Langage Naturel en Langues Africaines), très peu exploré aujourd’hui mais largement promue par des organisations en ligne comme Masakhane, Deep Learning Indaba, BlackinAI, AI4Development-Africa pour faire face aux défis comme les ressources limitées, la faible découvrabilité et la faible reproductibilité des langues africaines. Le traitement du langage naturel est une branche de l’IA qui permet de comprendre les subtilités du langage humain avec l’aide des ordinateurs.


Après la déclaration d’Asmara en Janvier 2000, il était devenu important de travailler pour la sauvegarde et la promotion des langues africaines qui font partie intégrante de notre héritage culturel. Passionnés et pratiquant de l’IA, nous avons donc opté pour son utilisation pour apporter notre pierre à l’édifice.
Notre objectif est de créer un système de traduction moderne et efficace pour les langues africaines, qui traduirait non seulement entre elles mais aussi entre les langues africaines et les langues occidentales.
Qui parle d’IA, parle de volume de données important. On ne peut donc pas prétendre vouloir construire des systèmes de traduction automatique performants sans disposer de puissantes bases de données, qui prendraient en compte tous les aspects et subtilités des langues.
Malheureusement, majoritairement tonales, il existe très peu de données sur les langues africaines. Notre travail consiste donc à rechercher autant de transcriptions écrites, d’expressions, de vocabulaires et de dictionnaires que possible.

Bonaventure Dossou
La première étape a donc été la mise en place du projet FFR (Fon-French Neural Machine Translation), qui prône la collecte de données à grande échelle (FFR Dataset) et la création d’un système de traduction Fon <-> Français. Le fon étant une langue aux ressources très limitées, parlée par 38,6% de la population de la République du Bénin.
Le FFR Dataset est donc un sous-projet du projet FFR, visant à créer un vaste corpus de phrases parallèles Fon – Français (FFR) soigneusement nettoyées pour la traduction automatique, et d’autres projets liés à la recherche en NLP. L’ensemble de données est obtenu après une évaluation minutieuse des traductions par des locuteurs natifs et bilingues.
Les principales sources dans notre cas sont JW300 et BeninLangues. JW300 (JW) contient des traductions des sermons des Témoins de Jéhovah dans plus de 100 langues, tandis que BeninLangues (BL) contient des mots de vocabulaire, des expressions courtes, de petites phrases, des phrases complexes, des proverbes, ainsi que des livres de la Bible (Genèse 1 – Psaume 79). Nous avons également obtenu des données de notre collaboration avec Fabroni Bill YOCLOUNON et Ricardo AHOUANVLAME.

Chris EmezueLe projet FFR, en constante évolution a été présenté à plusieurs grandes conférences dans le domaine de l’IA. Il a été chaleureusement salué par de grands chercheurs de GoogleAI, de DeepMind, pour ne citer que ceux-là et continue de faire l’objet de beaucoup d’interviews et de présentations scientifiques.
Ce succès vraiment inattendu nous pousse à continuellement améliorer la performance de notre système, dont la vidéo de démonstration est disponible ici en collectant plus de données.
Par ailleurs, nous explorons actuellement différentes architectures, schémas d’apprentissage et méthodes d’apprentissage par transfert qui pourraient rendre le système plus robuste. Nous travaillons également et prévoyons de publier les plates-formes web et mobiles de ce service d’ici la fin de 2020. Ensuite, nous nous concentrerons sur les traductions entre les langues africaines, à commencer par le Fon et le Igbo.
Combinant nos forces (avec Chris Emezue), nous avons lancé edAI, pour explorer les défis liés à l’IA en Afrique.

Pour plus d’informations, soutiens et collaborations sur nos différents projets et recherches:

Bonaventure Dossou
Twitter: bonadossou
Email: femipancrace.dossou (@) gmail.com
Chris Emezue
Twitter: ChrisEmezue
Email: chris.emezue (@) gmail.com
Contacts pour toutes collaborations avec Bonaventure Dossou et Chris Emezue sur leurs différents projets
Cet article est rédigé par Bonaventure Dossou et Chris Emezue pour le Collectif Idemi Africa. 
Partagez aussi avec nous vos réflexions pour améliorer la présence des langues Africaines sur internet en cliquant ici ou en nous envoyant un mail à hello (@) idemi.africa.
#MaLangueCompte

Le projet FFR et les recherches en Intelligence Artificielle (IA) en Afrique

Vous pourrez aussi aimer

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.