Projet sur les technologies pour les langues autochtones canadiennes

État : Actif

Aperçu

Nous mettons au point des technologies textuelles et de technologies fondées sur la parole qui visent à encourager la revitalisation et la préservation des langues autochtones en appuyant les enseignants et les étudiants de langues autochtones. En effet, ces technologies favorisent l'accessibilité des enregistrements audio et soutiennent les traducteurs et les transcripteurs de langues autochtones ainsi que d'autres langagiers professionnels.

  • Des technologies indépendantes des langues seront mises à la disposition des communautés sous forme de logiciel libre.
  • Nous travaillerons sous l'autorité et selon les conseils d'une commission consultative, et en étroite collaboration et en partenariat avec les organismes communautaires autochtones et les communautés autochtones partout au Canada.
  • Les travaux de recherche réalisés dans le cadre de ce projet respecteront la Politique des trois Conseils en matière d'éthique de la recherche.
  • Le budget de 2017 prévoit un investissement de 89,9 millions de dollars sur trois ans pour appuyer les langues et les cultures autochtones. De cette somme, 6 millions de dollars nous ont été octroyés.
  • Ce projet est géré par le Centre de recherche en technologies numériques du CNRC.

Technologies

Technologies fondées sur la parole

Le contexte

  • Des milliers d'heures d'enregistrements de langues autochtones existent à l'échelle du pays.
  • Les enregistrements peuvent être difficiles d'accès et d'utilisation parce qu'ils ne sont pas toujours entièrement transcrits et qu'il manque parfois des métadonnées (information sur les langues parlées, sur les locuteurs, etc.).

Notre objectif

  • Créer un logiciel qui segmentera et étiquettera automatiquement les fichiers audio pendant leur enregistrement (ou peu après).
  • Créer et mettre à l'essai un logiciel d'indexation audio qui permet d'effectuer des recherches dans les enregistrements existants, incluant ceux qui datent de plusieurs décennies, pour trouver des mots clés ou des phrases.
Technologies textuelles

Le contexte

  • La complexité des mots des langues autochtones, dans lesquelles un seul, long mot formé de plusieurs petites parties qu'on appelle des morphèmes, peut souvent exprimer ce que d'autres langues expriment au moyen de propositions entières, pose problème pour les applications logicielles (tant les logiciels éducatifs que professionnels) qui ne sont pas dotées de capacités de traitement de mots propres à une langue.
  • L'enseignement de la formation des mots fait partie intégrante de l'apprentissage des langues autochtones.
  • La complexité des mots et, dans certaines langues, des systèmes d'écriture rend la rédaction de textes qui respectent les normes officielles de la communauté difficile pour de nombreux apprenants.

Notre objectif

  • En collaboration avec les formateurs, nous travaillons à la conception d'outils éducatifs qui permettent l'apprentissage exploratoire de la formation de mots.
  • Nous développons des outils de vérification de l'orthographe et de la grammaire en vue de les intégrer dans les applications mobiles et de bureau afin d'aider les utilisateurs de langues de tous les niveaux à respecter les normes de rédaction de leur communauté.

Langues

Nous adoptons une approche qui favorise l'exhaustivité avant l'application généralisée. Tous les outils logiciels que nous créerons seront initialement adaptés à une ou deux langues autochtones canadiennes, mais ils seront conçus de façon à en permettre l'adaptation à d'autres langues.

Nos travaux portent actuellement sur les langues suivantes :

  • Kanien'keha (Mohawk)
  • Inuktitut
  • Cri

Grâce à une conception ingénieuse et à des essais subséquents, nous allons essayer de faire en sorte que les outils que nous mettons au point de cette façon puissent être adaptés à de nombreuses différentes langues après la période initiale de développement.

Collaborations

Nous collaborons officiellement et officieusement avec les groupes suivants :

7000 Languages

Site Web : 7000 Languages (en anglais seulement)

Description du projet : Initiative pour la création de cours de langues autochtones en ligne (Initiative CCLAL)

Le CNRC s'est associé aux experts de 7000 Languages, un organisme à but non lucratif non autochtone basé aux États-Unis qui crée des cours pour les langues en danger d'extinction partout dans le monde. Le CNRC financera des équipes communautaires choisies qui désirent créer des cours en ligne pour permettre l'apprentissage de leur langue. En savoir plus sur l'Initiative CCLAL.

Centre de recherche informatique de Montréal (CRIM)

Site Web : Centre de recherche informatique de Montréal

Description du projet : Communiqué de presse sur l’indexation d’enregistrements audio de langues autochtones, pour permettre la recherche par mots clés

Le Centre de recherche informatique de Montréal (CRIM) est un centre de recherche appliquée et d'expertise qui se spécialise dans les technologies de l'information. Son équipe Parole et Texte jouit depuis longtemps d'une renommée enviable grâce à ses réalisations dans les techniques de reconnaissance de la parole. Sa technologie d'indexation du contenu audio crée un index du contenu parlé de très grandes bases de données audio, qu'il est ensuite possible de consulter au moyen d'un moteur de recherche. Le CRIM a notamment appliqué cette technique aux archives de l'Office national du film (ONF) ainsi qu'aux témoignages de la Commission Bastarache. La reconnaissance du locuteur, autre technologie de calibre mondial élaborée par le CRIM, identifie la personne qui prononce une partie donnée du discours. Cette technologie figure d'ailleurs constamment parmi les meilleures lors des évaluations internationales des systèmes de reconnaissance du locuteur, si bien que l'on y recourt désormais partout sur la planète.

La collaboration du CNRC et du CRIM porte principalement sur l'application des techniques d'indexation automatique et de reconnaissance du locuteur aux langues autochtones. Au fil des ans, des centaines de milliers d'heures parlées ont été enregistrées dans diverses langues autochtones, mais ces enregistrements sont malheureusement rarement annotés ou indexés. On sera surpris d'apprendre qu'aujourd'hui encore, les Autochtones et les linguistes qui recueillent le langage parlé éprouvent le même problème. C'est que l'on manque d'outils pour segmenter la parole au moment où elle est enregistrée, et le volume de données non annotées dans les langues autochtones ne cesse d'augmenter.

Nous nous attaquons à deux facettes du problème.

  • Par la création d'outils simples, nous segmenterons la parole quand elle est enregistrée. Ces outils diviseront les fichiers audio en données vocales et non vocales, puis étiquetteront les premières avec l'identité du locuteur. Il s'ensuivra une annotation plus facile des enregistrements dans diverses langues.
  • On envisage aussi de bâtir des systèmes qui permettront la recherche de phrases ou de termes précis dans les enregistrements dans certaines langues autochtones. Ces systèmes ne permettront néanmoins pas une reconnaissance intégrale de la parole et nous ne concevrons pas de systèmes qui transcriront de façon impeccable tout ce qui se dit dans un enregistrement. En revanche, ils permettront une recherche par mot-clé audio, de sorte que l'utilisateur pourra parcourir rapidement de longs enregistrements en quête de termes ou de sujets précis. Pour l'instant, nos efforts se concentrent sur l'inuktut et le cri. Le Centre Pirurvik nous fournit une aide précieuse pour la partie du projet portant sur l'inuktut.
Centre Pirurvik

Site Web : Centre Pirurvik (en anglais seulement)

Description du projet : Le Centre Pirurvik est un centre d'excellence dans la langue, la culture et le bien-être inuits. Fondé à l'automne 2003, le Centre a son siège à Iqaluit, capitale du Nunavut. La collaboration du CNRC avec le Centre Pirurvik porte essentiellement sur la transcription des enregistrements en langue inuite, l'inuktut. Pour être retenu dans le cadre du projet, l'enregistrement devra être en langue parlée au départ et employer un riche vocabulaire; en outre, le locuteur ne devra pas « penser en anglais » quand il parle l'inuktut.

Ensuite, le CNRC et l'un de ses partenaires (le Centre de recherche informatique de Montréal) utiliseront la transcription de l'enregistrement inuktut pour développer des outils de reconnaissance de la parole avec lesquels on repérera d'autres enregistrements en inuktut par simple recherche de texte. De cette manière, les personnes qui parlent l'inuktut pourront accéder au contenu audiovisuel et le parcourir plus aisément.

Division des langues officielles, ministère de la Culture et du Patrimoine, gouvernement du Nunavut

Site Web : Division des langues officielles, ministère de la Culture et du Patrimoine, gouvernement du Nunavut

Description du projet : À venir

École de langue Onkwawenna Kentyohkwa

Site Web : École de langue Onkwawenna Kentyohkwa (en anglais seulement)

Description du projet : Conjugateur de verbes Kawennón:nis

Onkwawenna Kentyohkwa est une école d'immersion qui enseigne le kanyen'keha (la langue parlée par les Mohawks) à des apprenants d'âge adulte. Elle est située dans la réserve des Six Nations de la rivière Grand, dans le sud-ouest de l'Ontario. Onkwawenna Kentyohkwa a été créée en 1999 par Owennatekha (Brian Maracle) et Onekiyohstha (Audrey Maracle). Owennatekha est l'instructeur principal de l'école. Bon nombre des 100 diplômés de l'école ont ensuite enseigné la langue kanyen'keha au niveau préscolaire, primaire, secondaire, universitaire ou communautaire.

La collaboration du CNRC avec Onkwawenna Kentyohkwa est axée sur l'application Kawennón:nis, un nom ce qui signifie « créateur de mots » en kanyen'keha. Conçu à la suggestion d'Owennatekha, cet outil est un conjugateur de verbes destiné à aider les apprenants et les éducateurs de la langue, où qu'ils se trouvent. Plusieurs chercheurs du CNRC, Owennatekha et deux autres éducateurs d'Onkwawenna Kentyohkwa participent à son développement et à son amélioration. Le modèle linguistique qui alimente Kawennón:nis est le premier en son genre pour une langue iroquoise, et l'interface utilisateur de l'application est étroitement liée au programme d'études de l'école et est conçue en collaboration entre les étudiants et les éducateurs de l'école, ainsi que les chercheurs du CNRC. Kawennón:nis sera accessible en ligne sur le portail de l'école et sur les appareils Android et iOS. La technologie à applications linguistiques qui a été développée pour créer l'application sera quant à elle diffusée avec une licence à source ouverte.

First Peoples' Cultural Council

Site Web : First Peoples' Cultural Council (en anglais seulement)

Description du projet : Mise à niveau du logiciel FirstVoices Language Tutor du FPCC

Lire le communiqué de presse (en anglais seulement) au sujet de la mise à niveau du logiciel FirstVoices Language Tutor du FPCC.

Laboratoire de technologies langagières de l'Alberta, Université de l'Alberta

Site Web : Laboratoire de technologies langagières de l'Alberta, Université de l'Alberta (en anglais seulement)

Description du projet : Depuis 2013, le Laboratoire de technologies langagières de l'Alberta (ALTLab), une initiative de l'Université de l'Alberta dirigée par le Dr Antti Arppe, combine la recherche sur la structure linguistique et la création d'outils informatiques pour les langues autochtones, en commençant par le cri des plaines. Le laboratoire s'est inspiré des travaux antérieurs de collègues norvégiens qui se sont penchés sur le Saami et sur d'autres langues ouraliennes menacées en Eurasie du Nord, et dont les travaux ont débouché sur l'infrastructure de développement de logiciels de linguistique Giella. Cette infrastructure permet la création simple et rapide d'applications destinées à l'utilisateur final dans des langues morphologiquement complexes.

Dans une des sections de cette page Web, on décrit comment le CNRC a collaboré avec l'école d'immersion en langue mohawk Onkawenna Kentyokwa pour construire un outil éducatif appelé Kawennonis. Cet outil — auquel on intègre actuellement d'autres langues iroquoiennes — a été conçu à l'aide de l'infrastructure logicielle Giella. Il aurait été beaucoup plus difficile pour l'équipe du CNRC de créer Kawennonis sans l'aide de l'équipe d'ALTLab et son savoir-faire dans l'utilisation de Giella. Un développeur de logiciels du CNRC, Eddie Santos, travaille actuellement au sein de l'ALTLab afin d'améliorer la synergie entre les deux équipes.

Société Radio-Canada (SRC)

Site Web : Société Radio-Canada

Description du projet : La SRC crée une programmation pour et par les peuples autochtones, et offre des services dans huit langues autochtones et inuites. En appui au projet sur les technologies pour les langues autochtones du CNRC, la SRC offre des enregistrements en langue des cris de l’est de la Baie-James au Centre de recherche informatique de Montréal (CRIM). Cette contribution permettra au CRIM de créer des outils de segmentation et d’analyse audio adaptés à l’indexation des enregistrements en langues autochtones. La SRC a fourni 1 312 fichiers audio qui représentent plus de 1 343 heures de programmation radiophonique initialement diffusée par la SRC entre janvier 2015 et décembre 2016. Les enregistrements, de qualité studio ou téléphonique, contiennent des dialogues et de la musique qui seront essentiels à la réussite du projet. Les équipes du CNRC et du CRIM sont très reconnaissantes de cet appui.

Université Carleton

Site Web : La professeure Marie-Odile Junker (en anglais seulement) de l'Université Carleton et son équipe ont développé plusieurs sites Web pour les langues (en anglais seulement) de la famille algonquine, en partenariat avec des organisations autochtones.

Description du projet : Projet des dictionnaires algonquins (Cris de l'Est et Innus)

Cette initiative menée en collaboration avec le CNRC est axée sur la mise à jour des leçons de langue en ligne élaborées plus tôt par l'équipe de l'Université Carleton, en collaboration avec des programmes Cris et l'Institut Tshakapesh, qui sont conçus pour stimuler l'alphabétisation des Cris de l'Est (2006‑2011) et des Innus (2009‑2012).

La plateforme de leçons, de jeux et d'exercices en ligne facilite la création de leçons multimédias interactives en ligne incorporant des exercices et des jeux générés automatiquement. Les utilisateurs peuvent écouter un mot ou une phrase dans plusieurs dialectes, puis réaliser des activités interactives générées par ordinateur qui les mettent à l'épreuve et améliorent leur vocabulaire, leur orthographie et leur grammaire. Les utilisateurs de la plateforme peuvent aussi s'engager dans des exercices grammaticaux et textuels plus avancés. De leur côté, les enseignants ont accès à une fonctionnalité d'élaboration en ligne de nouveaux plans de cours, et peuvent suivre la progression des élèves. Les experts linguistiques peuvent accéder à une interface d'administrateur pour élaborer du nouveau contenu.

Malheureusement, le rythme rapide des changements dans l'industrie du logiciel a rendu ces outils obsolètes sur le plan technique, car bon nombre de leurs fonctions clés ne fonctionnent plus comme prévu. L'objectif de la collaboration avec le CNRC sera de mettre à jour la plateforme afin de l'harmoniser avec les technologies actuelles. La mise à jour de la plateforme est également l'occasion d'améliorer l'expérience des apprenants en langue seconde (à l'origine, ces outils avaient été mis au point pour des locuteurs de langue maternelle) et de tester la convivialité des leçons.

Cette liste est mise à jour régulièrement et, au fur et à mesure de la progression du projet, des collaborations avec d'autres organisations seront établies et la liste sera mise à jour.

Publications

Voici une sélection des publications faites par l'équipe du projet et leurs collaborateurs au sujet de la recherche sur les technologies de langues autochtones.

Notre équipe de projet

Anna Kazantseva, Ph. D.

Linguistique informatique de la documentation (romans et récits); modélisation de la structure du discours dans de longs documents informels; linguistique informatique des langues iroquoiennes.

Roland Kuhn, Ph. D. (chef de projet)

Reconnaissance automatique de la parole; traduction automatique.

Patrick Littell, Ph. D. (conseiller de projet)

Linguistique informatique des langues à faibles ressources; ses travaux ont porté sur plusieurs langues autochtones, dont les langues kwak'wala/bak'wamk'ala, gitksan et nłeà kepmxcín (langue salish de la rivière Thompson).

Aidan Pine

Développement de logiciels à l'appui des langues autochtones; développement d'outils en collaboration avec les communautés gitksan et heiltsuk.

Eddie Antonio Santos

Génie logiciel, modélisation appliquée du language, spécialiste unicode.

Commission consultative

Nous sommes résolus à développer des technologies en collaboration avec les intervenants autochtones, et nous mettons sur pied une commission consultative à majorité autochtone qui donnera des conseils sur les méthodes de collaboration et évaluera la mise en œuvre des projets.

Personne-ressource

Roland Kuhn, Ph. D.
Agent de recherches principal, chef du projet sur les technologies pour les langues autochtones

Téléphone : 613-993-0821
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca
LinkedIn : Roland Kuhn

Date de modification :