Gouvernement du Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Personne-ressource pour les affaires

Michel Mellinger
Téléphone : 819-934-9176
Télécopieur : 819-934-2607
Courriel : Michel.Mellinger@cnrc-nrc.gc.ca

ITI-CNRC - Les experts et le personnel

Nos Recherches - Projets

TerminoWeb: La terminologie computationnelle à l'oeuvre

Le projet TerminoWeb a pour objet de mettre au point une technologie qui permettra, à terme, la construction automatique d'ontologies spécialisées (pour des domaines précis), rejoignant ainsi l'étude de la terminologie. Le projet a débuté en 2004 et de multiples volets en sont explorés dont les résultats seront diffusés (consultez cette page régulièrement pour des mises à jour). TerminoWeb traite maintenant l’anglais et le français ; d’autres langues peuvent être envisagées vu la modularité de sa conception; nous nous préparons à explorer la terminologie bilingue anglais-français.

Les différents volets du projet sont :

  • la construction semi-automatique de corpus spécialisés;
  • l'extraction de termes dans les corpus spécialisés;
  • la découverte semi-automatique de variantes terminologiques;
  • la structuration semi-automatique de la partie taxonomique des ontologies;
  • l'exploration d'autres relations sémantiques (non-taxonomiques).

Le projet s'appuie sur des technologies de base d'extraction d'information à partir de patrons linguistiques, et développe aussi des technologies nouvelles et originales. Par exemple, pour la construction de corpus spécialisés, nous développons un module de post-traitement des sorties de moteurs de recherche qui permet un ordonnancement des textes combinant des critères de mise en page (texte fluide) et des critères de densité d'information définitionnelle (richesse du contenu). Cette technologie est tout à fait unique et permet une recherche de documents adaptée à la création d'ontologies spécialisées. Aussi, pour l'extraction de termes, nous débutons nos recherches sur l'inclusion de critères relationnels entre les termes pour la détermination de leur statut (terme ou non) dans un domaine. Ceci est aussi tout à fait original car les critères normalement utilisés sont des critères linguistiques et statistiques individuels (ne regardant qu'un terme à la fois).

Le projet TerminoWeb ouvre la porte à plusieurs applications logicielles qui vont :

  • permettre aux terminologues d'accroître leur productivité;
  • permettre la génération de ressources utiles dans diverses applications en traitement des langues (recherche d'information, traduction, questions-réponses);
  • apporter un soutien à la formation dans des domaines spécialisés;
  • apporter un soutien à l'apprentissage des langues pour des domaines spécialisés.

Le projet vise donc des impacts significatifs en terminologie, traduction et en apprentissage des langues.

La publication NRC-48765 décrit les différentes fonctions composant TerminoWeb, illustre ses capacités grâce à quelques résultats et identifie les pistes de R-D envisagées initialement.

Nous sommes disposés à discuter de transfert de technologie avec des partenaires industriels intéressés à l'un ou l'autre des domaines d'applications énoncés ci-dessus.

La version 2.0 de TerminoWeb est disponible en ligne. Nous apprécions toujours les commentaires d'usagers. Voir le site du logiciel TerminoWeb si vous désirez utiliser TerminoWeb. Nous faisons évoluer TerminoWeb selon les commentaires des usagers en même temps que nous poursuivons les pistes de R-D d'intérêt au développement des outils dérivés de TerminoWeb.

Information pertinente

Instituts: