ARCHIVÉ - Les chercheurs du CNRC conçoivent des outils de recherche plus ingénieux

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Le 06 février 2006— Ottawa (Ontario)

« Plus l'ordinateur comprendra de mots et plus son utilité grandira dans les tâches quotidiennes ».
Peter Turney, ITI-CNRC.

Lancez une recherche sur une maladie ou un modèle de voiture donnés sur Google et vous perdrez sans doute un temps fou à faire le tri entre des centaines de résultats plus ou moins pertinents. Comment séparer le bon grain de l'ivraie dans un univers qui croule sous une avalanche d'informations électroniques? Les scientifiques du CNRC travaillent à faciliter les recherches de ce genre; une façon d'y parvenir consiste à apprendre le langage aux ordinateurs.

« Plus l'ordinateur comprendra de mots et plus son utilité grandira dans les tâches quotidiennes », estime Peter Turney, membre du Groupe de l'information interactive à l'Institut de technologie de l'information du CNRC, à Ottawa. Ce groupe se concentre sur la création d'outils logiciels assurant un meilleur accès à l'information électronique.

Recherche sur le Web

M. Turney se spécialise dans le sens des mots, ce qu'on appelle la sémantique lexicale. L'ordinateur actuel, portable ou pas, n'est qu'un bambin, linguistiquement parlant. Les éditeurs de texte et les logiciels qui filtrent les pourriels effectuent certains choix ou prennent des décisions s'appuyant sur des mots simples, privés de sens. « Viagra », par exemple. Cela revient un peu à apprendre une langue sans savoir ce que les mots signifient ni connaître le sens qu'ils prennent une fois réunis.

La course est donc lancée vers la création d'un logiciel qui fera plus que seulement reconnaître les mots et en extraira le sens exact. Prenons l'analyse des sentiments. Un logiciel de ce genre est capable d'établir si les mots dans une phrase ont un sens positif ou négatif. Grâce à lui, on peut donc effectuer une sorte de recherche fondée sur les sentiments. Une application envisageable serait de surveiller les échanges dans les groupes de discussion financiers en vue de découvrir ce que les gens pensent de certaines valeurs mobilières.

L'objectif de M. Turney est d'amener l'ordinateur à comprendre l'anglais deux mots à la fois.

« Je travaille sur un algorithme recourant à une énorme quantité de texte pour déchiffrer la relation entre n'importe quelle paire de mots », explique-t-il. L'algorithme est une méthode de calcul à la base des codes informatiques et des logiciels.

Ses groupes de mots préférés sont le déterminant et son déterminé – bref, les doublons où le nom est modifié par le terme qui le précède, en anglais. « Laser printer » (imprimante laser) ou « flu virus » (virus de la grippe) en sont des exemples. Amener l'ordinateur à comprendre les déterminants est une tâche linguistique titanesque. WordNet, dictionnaire en ligne gratuit de termes employés par les chercheurs, répertorie environ 26 000 déterminants et leur déterminé. Le lien entre les deux tombe dans une catégorie parmi plus de cinquante. Ainsi, ce lien pourrait être causal ( « exam anxiety », angoisse de l'examen), temporel ( « daily exercise », exercice quotidien) ou spatial ( « home town », ville natale).

Selon le chercheur, la logique est inutile quand on programme un ordinateur pour qu'il comprenne les déterminants. La machine y parvient en calculant statistiquement la probabilité qu'un lien existe entre deux mots d'après l'expérience lexicale acquise par exploration du Web en profondeur, c'est-à-dire après analyse d'un volume considérable de texte.

Un moteur de recherche en mesure de comprendre les déterminants constituerait un progrès fantastique. Pour l'instant, lorsqu'on demande à Google de chercher deux mots, on obtient une multitude de documents contenant ces mots, mais dans des sens très variés. Les résultats seraient beaucoup plus précis si la recherche était circonscrite grâce à une compréhension spécifique des déterminants.

Avant de rendre son algorithme public, M. Turney en a testé l'efficacité sur les examens d'admission des universités et collèges américains. En effet, certaines questions à choix multiple qu'on y trouve portent sur des analogies lexicales. Ainsi, partant des termes « mason » (maçon) et « stone » (pierre), l'étudiant doit choisir la paire de termes présentant la plus grande analogie parmi les cinq qui lui sont proposées. Dans ce cas, la réponse est « carpenter » (charpentier) et « wood » (bois).

M. Peter Turney
M. Peter Turney

« Pour l'instant, mon algorithme n'obtient qu'une note moyenne à l'examen d'admission dans les questions d'analogie lexicale », avoue le chercheur.

À présent, il tente de former son programme pour qu'il soit admis dans les grandes universités plutôt que les collèges d'État. Dans cette optique, il aimerait que le logiciel explique sa décision au lieu d'indiquer simplement la bonne réponse.

M. Turney signale qu'un algorithme reconnaissant les déterminants et des outils capables de trouver exactement ce que l'on cherche dans la montagne de données existantes présenteraient un énorme potentiel financier. Les sociétés comme Google incitent les linguistes de l'informatique à faire preuve d'astuce pour mettre au point des moteurs de recherche qui saisiront mieux les complexités du langage. Chaque jour, des milliers de gens emploient déjà l'algorithme breveté par M. Turney, qui extrait les mots clés d'une phrase, pour effectuer des recherches en ligne grâce au jeu d'outils du logiciel québécois Copernic. Alain Désilet, un de ses collègues de l'ITI-CNRC, s'efforce de perfectionner la technologie en vue de créer un outil qui extraiera automatiquement l'information essentielle de documents « parlés » comme les bandes vidéo et les vidéoconférences, pour la production de résumés écrits.

Dans un domaine connexe, Joel Martin et Berry de Bruijn, deux autres chercheurs de l'ITI-CNRC, travaillent sur un logiciel qui améliorera la recherche en profondeur d'informations dans un secteur particulièrement ardu : la documentation scientifique. Baptisé « Litminer », ce logiciel, présentement en développement, aidera les chercheurs en génomique et en protéomique à trier plus efficacement les dizaines de milliers d'articles scientifiques publiés mensuellement et à découvrir les progrès techniques ou les découvertes qui leur seront les plus utiles parmi les plus récents.

M. Turney ne se limite toutefois pas aux retombées immédiates des ordinateurs plus futés. Inspiré depuis l'enfance par les robots parlants des séries de science-fiction à la télévision comme « Perdus dans l'espace », « Star Trek » et le célèbre HAL du film « 2001, une odyssée de l'espace », notre chercheur de 45 ans est persuadé que dans quelques dizaines d'années, l'ordinateur comprendra nettement plus que deux mots à la fois. Il est convaincu que nous parlerons aux machines qui non seulement nous comprendront, mais nous répondront également.

Et M. Turney de terminer : « Bien que la polémique sur l'intelligence artificielle continue de faire rage chez mes collègues, un jour, je suis certain que vous parlerez à votre ordinateur comme vous le feriez avec une personne. »


Liens suggérés :


Renseignements : Relations avec les médias
Conseil national de recherches Canada
613-991-1431
media@nrc-cnrc.gc.ca

Restez branché

Abonnez-vous

Date de modification :