Centre de Recherche en Linguistique Computationnelle
Créé en 2011 en partenariat avec le groupe TEDECO, le Centre de recherche en linguistique computationnelle de l’Université de Ngozi mène un projet intitulé “Natural Languages”, qui consiste à contribuer au développement d’un dictionnaire électronique multilingue incluant des langues bantoues parlées en Afrique de l’Est, notamment le kirundi.
Objectif :
Renforcer l’utilisation des langues bantoues, en commençant par le kirundi et le swahili, grâce à l’usage des nouvelles technologies.
Partenaires :
Trois structures, qui travaillent depuis longtemps ensemble, sont pour le moment impliquées dans le projet :
- L’Université polytechnique de Madrid – Espagne, au travers du groupe TEDECO, a conçu le projet, assure le suivi des activités et leur visibilité internationale et finance des bourses pour les étudiants qui travaillent au sein du projet afin de rémunérer leur contribution.
- Kamusi International – États-Unis et Suisse – finance le coordinateur à mi-temps du projet, une indemnité pour les tuteurs et des bourses pour les étudiants, ainsi que du matériel d’appoint pour mener à bien le projets. L’ONG fournit surtout le support du dictionnaire PALDO (Pan African Living Dictionaries Online).
- L’Université de Ngozi – Burundi, met des enseignants et des étudiants à la disposition du projet afin d’effectuer la production de données pour le dictionnaire. A cette fin, l’équipe du projet, composée d’enseignants et d’étudiants boursiers de la faculté de Lettres et sciences humaines, travaille respectivement sur :
– la production d’entrées en français, kirundi et swahili dans le dictionnaire, avec une identification grammaticale, une racine (lemma), une définition, des indications sur les catégories de mots et les différentes formes qu’il peut prendre et un exemple d’usage pour chaque entrée ,
– la traduction d’articles de Wikipedia du français vers le kirundi ,
– la traduction de l’application qui gère le système de bourses et le développement d’une terminologie pour les ICT de l’anglais et du français vers l’espagnol, le kirundi et le swahili.
Lire la suite
Méthodologie:
1. Le dictionnaire électronique
Pour la partie du dictionnaire créée sur une base systémique, le Centre travaille actuellement sur la base d’un ensemble de référence d’environ 4000 mots universels et leur traduction en espagnol. Cette sélection de référence a été élaborée par le Ministère de l’Éducation espagnol en 1985, et correspondant au vocabulaire de base d’enfants ayant entre 8 et 11 ans. Elle a du être légèrement actualisée pour correspondre aux exigences du projet.
Les mots universels appartiennent à la Langue de mise en réseau universel (Universal Networking Language – UNL), une langue artificielle, dont toute ambiguïté a été gommée, créée dans les années 1990 par l’Université des Nations Unies dans le cadre de son Programme UNL. Le but de ce programme est de soutenir le développement massif du multilinguisme sur Internet.
L’UNL est une “interlingua”, autrement dit, une langue utilisée comme pivot entre d’autres langues au sein de systèmes de traduction automatique. Or utiliser une “interlingua” qui ne contient pas d’ambiguïté (et qui est donc artificielle, puisque toutes les langues humaines sont par nature ambiguës) comme source des entrées d’un dictionnaire permet de développer des dictionnaires multilingues sans avoir besoin de traducteurs humains parlant toutes les langues requises. Seuls sont nécessaires des traducteurs qui comprennent les mots dans l’”interlingua” et qui peuvent les traduire vers l’une des langues du dictionnaire.
Pour plus d’informations:
? http://www.unl.fi.upm.es/homepage.htm
? http://www.agis11.org/
? http://www.kamusi.org/
2. La traduction d’articles pour créer un corpus bilingue français-kirundi
La partie français-kirundi du dictionnaire est par ailleurs développée en utilisant un système statistique. Pour cela, nous rassemblons un corpus de textes bilingues, rédigés en français et en kirundi. Dans le même temps, une équipe d’étudiants est en charge de traduire des articles en français tiré de l’encyclopédie libre Wikipedia (afin d’éviter tout problème lié à la propriété intellectuelle) vers le kirundi.
Aussitôt traduits et corrigés, les articles en kirundi sont mis en ligne sur le site de www.ri.wikipedia.org. Puis, sur la base de l’ensemble du corpus bilingue ainsi constitué, ainsi que dans l’avenir, des corpus parallèles dans les deux langues élaborés dans des domaines spécifiques communes, un logiciel d’extraction de mots, qui permettra d’appliquer aux couples de textes des méthodes de reconnaissance statistique, offrira la possibilité d’accroître rapidement le nombre d’entrées traduites en français et en kirundi dans le dictionnaire.