L’IA est l’amie de l’Afrique, pas son ennemie !
Bien que je parle anglais, je ne suis pas anglais, mais écossais, où la culture est ouverte, bavarde et basée sur l’humour. Cela ne fait pas de moi un expert des cultures, des normes sociales et des nuances linguistiques très différentes de l’Afrique, mais je travaille dans le domaine de l’IA et cela aide!
Oui, l’effacement colonial, la marginalisation linguistique et l’inégalité économique sont réels, mais il serait trop facile d’en faire une raison pour se laisser aller et ne rien faire, en rejetant la technologie de notre époque – ce serait une erreur.
Les préjugés partisans, en particulier une confiance excessive dans les perspectives anglaises, chinoises ou occidentales, pourraient marginaliser les cultures et les langues non anglo-saxonnes en Afrique, et conduire à une inégalité aggravée. Les grands modèles et les services fondateurs de l’IA sont souvent accusés de privilégier l’anglais et les autres langues notables, au détriment des langues minoritaires.
À l’instar de la personne qui, en Irlande, a interpellé un Irlandais en lui demandant » Comment puis-je me rendre à Dublin ? » et qui s’est vu répondre » Eh bien, je n’aurais pas commencé par ici! « , gardons notre sens de l’humour, mais prenons aussi cette plaisanterie au sérieux. Il faut bien commencer quelque part pour construire des modèles d’IA et on ne peut pas partir de partout en même temps. Si ces entreprises avaient dit : » Nous ne lancerons pas ChatGPT et ainsi de suite tant que nous n’aurons pas couvert les 7100 langues du monde, y compris les 2000 langues africaines « , cela aurait pris des décennies, car ces choses-là prennent du temps. Même dans ce cas, la tâche est presque impossible. Permettez-moi d’expliquer pourquoi.
On ne peut pas faire un pot d’argile sans argile, et un très grand nombre de langues n’ont pas de répertoire écrit substantiel (l’argile à laquelle je fais référence dans mon analogie). Sur les 7100 langues connues dans le monde, environ 3500 n’ont pas de système écrit formel et n’existent que sous forme orale. En Afrique, sur environ 2150 langues, plus de 1500 sont uniquement orales, sans système d’écriture. Les autres langues écrites disposent de peu de données en ligne, et les textes qui existent sont souvent influencés par la colonisation, comme les traductions de la Bible dans ces langues et les documents administratifs. Il ne faut pas sous-estimer l’héritage colonial, mais l’IA s’efforce d’enrayer et de résoudre ces problèmes, et non de les exacerber.
L’anglais, le français, l’arabe, le swahili, l’amharique et le somali sont bien couverts par l’IA et représentent plus de 560 millions de locuteurs en Afrique. C’est un début raisonnable en un peu plus de deux ans. Parmi les autres langues dotées de certaines capacités, citons le haoussa, l’igbo, le yoruba, le zoulou, le xhosa et le wolof. Bien sûr, certaines de ces langues sont fortement biaisées par le sujet, inégales dans la traduction et plus ou moins performantes, mais Rome, ou Dar es Salaam, ne s’est pas construite en un jour, ni même en deux ans, et chaque semaine qui passe voit une amélioration de la présence, de l’étendue et de la profondeur des langues africaines dans les services d’intelligence artificielle.
Nous y arrivons…
J’ai un avatar, Digital Don. Il est assez réaliste, avec mon accent écossais… Je l’ai également utilisé pour parler en swahili (variantes kényane et tanzanienne), en somali, en amharique et en zoulou. C’était la première année de l’IA générative. Aujourd’hui, je constate que la présence et les capacités des langues africaines dans l’IA se sont accrues en l’espace de quelques années seulement. Regardez cette vidéo par exemple !
Il est vrai que seules quelques douzaines de langues africaines (principalement celles qui ont une certaine présence sur le web) apparaissent dans le corpus de formation des modèles actuels, les traductions de la Bible étant souvent les plus grands corpus de sources facilement disponibles pour les langues dîtes « à faibles ressources ». Viennent ensuite les documents gouvernementaux, administratifs et juridiques tels que les lois publiées, les constitutions ou le matériel pédagogique dans les langues indigènes. Enfin, ils utilisent des articles d’actualité, des forums et des données web générales qui peuvent être récupérées par des robots d’indexation. Étant donné que cela constitue tout ce qui était et demeure disponible, je pense qu’ils essaient avec le peu de matière qu’ils ont.
Et voici quelque chose de fascinant: vous n’avez pas toujours besoin de matière ou de données pour traiter une nouvelle langue, bien que cela soit utile. Une caractéristique intéressante des modèles multilingues à grande échelle (MLLM) est leur capacité à traduire des langues qui ne figurent même pas encore dans l’ensemble d’apprentissage! Google, en particulier, s’est penché sur cette approche.
L’anglais comme lingua franca
Duolingo propose des cours de swahili depuis 2017, le zoulou et le xhosa ont maintenant fait leur entrée, mais il est un fait indéniable que près de la moitié de tous les étudiants de Duolingo apprennent l’anglais, car c’est maintenant la lingua franca du monde, une langue officielle dans des pays comme le Nigéria, l’Afrique du Sud, le Kenya, le Ghana, l’Ouganda et la Tanzanie. Au fil du temps, l’anglais est devenu la lingua franca mondiale, d’abord aux États-Unis dans le cadre de l’Empire britannique. La prédominance de l’anglais reflète donc l’héritage du colonialisme par les Anglais des États-Unis, ce qui a permis à l’anglais de devenir la langue dominante, aujourd’hui largement utilisée dans les voyages internationaux, le commerce et la communication professionnelle.
Aujourd’hui, sa domination n’est pas tant une force coloniale qu’un résultat pratique, fondé sur le besoin pragmatique d’une communication normalisée et universellement accessible. C’est par exemple la langue imposée par l’Organisation de l’aviation civile internationale (OACI) pour les pilotes et les contrôleurs aériens internationaux, ainsi que dans l’industrie maritime, où les phrases standard de communication maritime (SMCP) exigent l’anglais pour les communications maritimes internationales. La science et le monde universitaire s’appuient également sur une base de revues scientifiques dominées par l’anglais, tout comme la médecine et les soins de santé. Le monde des affaires et de la finance s’appuie sur l’anglais pour le commerce international, la finance, la gouvernance d’entreprise, les documents juridiques et la communication entre les sociétés multinationales. C’est également le cas des médias, du divertissement, du tourisme et de l’hôtellerie. Cela peut avoir des racines historiques et coloniales, principalement la colonisation de l’Amérique du Nord et l’adoption de l’anglais par les États-Unis, ainsi que la taille de l’Empire britannique, mais il s’agit maintenant d’une question pratique fondée sur le besoin utile de normalisation et d’interopérabilité à l’échelle mondiale.
L’IA préserve les langues en voie de disparition
L’IA aide à préserver les langues en voie de disparition en capturant les données existantes, mais aussi en explorant le web et d’autres sources. Wikipédia en est un bon exemple, car la quantité de données dont dispose une langue est représentée par sa présence sur Wikipédia.
Les langues africaines sont en plein essor sur Wikipédia, avec plus de 40 langues représentées, de sorte que la richesse linguistique écrite du continent trouve aujourd’hui un foyer numérique. Parmi les langues africaines les plus actives figurent le swahili, le yoruba et l’afrikaans, qui comptent chacune des milliers d’articles et une communauté d’éditeurs engagés. L’amharique, le hausa, l’igbo, le shona, le somali, le zoulou, le kinyarwanda, le wolof, le lingala, le tigrinya, le bambara, le tswana et le sotho sont également très présents et ne cessent de s’étendre. Vous trouverez également du contenu en xitsonga, kirundi, peul, kanuri et kabyle. L’histoire ne s’arrête pas là. Des dizaines d’autres langues africaines trouvent une place et une présence dans Wikipédia, bien que certaines soient de faible volume et d’autres encore en construction dans l’Incubateur. Il s’agit notamment de l’ewe, de l’akan, du dagbani, du tshivenda, du gikuyu, du fon, du sango, du tumbuka, du tsonga, du ndebele, du chichewa, du luganda, du ndonga, du venda, du kongo et du sesotho sa leboa. Même le masaï fait partie du mélange, et prend actuellement de l’ampleur, de même que divers dialectes berbères comme le tarifit, qui réalisent tous des débuts très prometteurs. Comme je l’ai dit, cela prend du temps, mais regardez les progrès que nous avons déjà fait!
La traduction en anglais et le retour dans la langue source se sont avérés utiles, tout comme d’autres solutions techniques de mise au point, mais rien ne surpassera le travail acharné réalisé par la Communauté avec des centaines de chercheurs de plus de 30 pays africains pour résoudre ces problèmes. Le projet “Common Voice” de Mozilla accomplit un travail remarquable en capturant la parole dans des enregistrements, une approche très prometteuse car elle peut être transformée en texte et représente également l’utilisation réelle de la langue dans son contexte oral et culturel.
En conclusion,
Il ne s’agit pas seulement de traduire des connaissances, mais aussi de préserver l’identité, la culture et le pouvoir des langues locales à l’ère numérique. Le travail de Noelani Arista à Hawaï et le travail proactif sur l’islandais avec OpenAI en sont de bons exemples.
Le » Projet 1000 langues » de Google est un engagement à long terme visant à créer des modèles d’IA vocale et textuelle capables de comprendre et de générer plus de 1 000 langues. L’entreprise a beaucoup investi dans la collecte de données ouvertes et les partenariats communautaires, en soutenant également des plateformes de crowdsourcing pour collecter des données textuelles et vocales dans des langues sous-représentées.
Le projet » Aucune langue laissée de côté » (NLLB) de Meta vise à combler le fossé de l’équité linguistique dans l’IA, en mettant l’accent sur les langues à faibles ressources, en particulier en Afrique, en Asie du Sud et en Asie du Sud-Est. Ils ont publié NLLB-200 : un modèle de traduction qui prend en charge 200 langues, dont 55 langues africaines, telles que le wolof, le hausa, le bambara, le swahili, le xhosa, le zoulou, l’igbo, le yoruba et le lingala, pour n’en citer que quelques-unes. Meta a créé un vaste ensemble de données multilingues appelé FLORES-200 afin d’améliorer la précision des traductions dans les environnements à très faibles ressources, qui prend également en charge la traduction d’articles de Wikipédia.
Il est important de noter que l’ensemble de ces données et le code d’entraînement sont en “code source” ouvert, de sorte que les développeurs et les chercheurs peuvent les utiliser et s’en inspirer. Meta a également collaboré avec Masakhane, des linguistes locaux et des chercheurs d’Afrique et d’Asie afin de développer ces données.
Sans l’IA, le risque pour les petites langues minoritaires de disparaître ne ferait que s’accroître. En collectant et en archivant des données provenant d’un large éventail de sources en ligne, l’IA peut contribuer à préserver des contenus que les archivistes humains risquent de négliger, en particulier lorsque les sites web disparaissent et que les populations de locuteurs diminuent. Cela est d’autant plus urgent que d’autres langues sont de plus en plus dominantes et recherchées, en particulier par les jeunes générations. Comme l’IA peut documenter et transcrire le discours oral en texte, cela peut préserver la dimension orale de la langue et être transformé en données utiles pour les modèles de formation. Cela s’étend à des aspects plus complexes de la parole, tels que l’utilisation réelle, les dialectes et la prononciation. Tous ces éléments sont utiles non seulement pour préserver ces langues menacées, mais aussi pour permettre l’utilisation des ressources dans l’enseignement, l’apprentissage et l’évaluation. Les chatbots et les outils éducatifs peuvent réellement revitaliser une langue, en diffusant littéralement le mot et l’usage parmi les jeunes locuteurs. Tout cela contribue non seulement à préserver, mais aussi à revitaliser une langue menacée.
En ce qui concerne la productivité, il est important que les gens ne laissent pas le passé définir leur avenir. Ne vous contentez pas de recevoir la technologie, contribuez à la façonner. Nous avons besoin d’écosystèmes locaux de développement de l’IA, d’un plus grand nombre d’ingénieurs et d’entreprises africaines spécialisés dans l’IA pour rejoindre le mouvement. Des Africains construisant une IA pour les Africains, enracinée dans les valeurs et les besoins locaux. Cet avenir peut être créé en rassemblant les données existantes et en créant de nouvelles données. Cela demandera du temps et des efforts, mais c’est vital si tous les pays et toutes les communautés du monde entier veulent profiter des opportunités en matière d’éducation, de santé et de gouvernement qu’offre l’IA en termes de productivité et de croissance économique pour le plus grand nombre et pas seulement pour une minorité.
Revenons à la question de l’orientation posée par notre sage Irlandais. Comment aller là où je veux aller ? Commencez par déterminer où vous êtes, planifiez votre propre itinéraire, faites le premier pas, puis le suivant et encore le suivant, et vous y arriverez. La pire chose à faire est de s’asseoir, de n’arriver à rien et de reprocher à l’Irlandais de ne pas aimer les Anglais !