L'âge des données

Ken Tapping, Le 21 septembre 2016

Dans le ciel cette semaine…

  • Le 22 septembre, en descendant vers l’hémisphère sud, le Soleil croisera l’équateur céleste, ce qui marquera l’équinoxe d’automne et la fin officielle de l’été.
  • Mars et Saturne apparaissent très bas à l’horizon au sud-ouest, après la tombée de la nuit. Mars est à gauche, Saturne à droite.
  • La Lune entrera dans son dernier quartier le 23.

Il y a quelques années, je discutais avec un collègue du CNRC à Ottawa des difficultés qu’il y avait à extraire de l’information utile des grands ensembles de données. On peut en effet comparer les données brutes au minerai de fer : en soi, il a peu d’utilité, contrairement au fer que l’on en extrait.

Mon collègue et moi discutions en fait de la difficulté de trouver dans une meule de foin des éléments qui ne sont pas du foin, mais qui y ressemblent étrangement. Ces objets ressortent du lot, mais l’on ignore au départ en quoi ils se distinguent. Pour les trouver, il faut recourir à des techniques informatiques telles que « l’exploration de données », les « réseaux neuronaux » et « l’apprentissage machine », qui sont des techniques d’analyse de données assistée par ordinateur (ADAO).

À l’époque, mon collègue m’avait fait part d’une expérience qu’il avait menée sur les données d’observation amassées sur quelque 22 000 galaxies. Il avait demandé à l’ordinateur de les classer en catégorie, sans donner aucune précision sur les galaxies ni sur ce qu’il recherchait. Le tri a pris du temps, mais l’ordinateur a produit une mine de nouveaux renseignements au sujet de ces galaxies.

L’un des projets sur lesquels nous travaillons consiste à trouver des techniques pour analyser des carottes de glace, des anneaux de croissance d’arbres et des données sur les taches solaires afin de monter une base de données sur l’activité solaire couvrant une très longue période, sans préciser au départ à l’ordinateur le genre d’information que nous recherchons. En sciences, comme dans bien d’autres domaines d’activité humaine, on a souvent raté des découvertes importantes en se cantonnant trop « à ce que l’on recherchait ».

Le problème d’analyse est devenu épineux dans le domaine de l’astronomie. Autrefois, les observations astronomiques se soldaient par des notes jetées dans un cahier, quelques images sur pellicule et parfois, des courbes spectrales. Ces données étaient enregistrées sur bandes magnétiques pour analyse ultérieure. Depuis l’avènement des télescopes optiques et des radiotélescopes modernes, cette époque est complètement révolue. Par exemple, le radiotélescope CHIME (Canadian Hydrogen Intensity Mapping Experiment ou expérience canadienne de cartographie de l’hydrogène), dont la construction est bien avancée ici à l’Observatoire, pourra capturer d’un seul coup une grande région du ciel visible et les milliers d’objets qui s’y trouvent. Dès qu’il se mettra en marche, cet instrument produira un torrent de données. En comparaison, le Réseau d’un kilomètre carré (Square Kilometre Array), projet international auquel participe le Canada et qui vise à construire le radiotélescope le plus grand et le plus puissant jamais réalisé, produira un raz de marée de données. Le volume de données sera tellement grand que nous ne pourrons toutes les stocker. Il faudra d’une manière ou d’une autre procéder à un traitement préliminaire pour en réduire la quantité sans perdre aucune information scientifique valable, et ce, bien souvent sans savoir à l’avance ce qui sera utile. C’est là qu’interviennent les techniques d’ADAO.

Le problème ne se limite pas à l’astronomie ni même à la science. En raison de l’augmentation exponentielle de nos capacités sur tous les plans – pour acquérir, stocker, traiter et déplacer d’immenses volumes de données facilement et rapidement à l’échelle du globe –, nous produisons des masses de données qui dépassent l’entendement. Tout ce que nous souhaitons savoir se trouve probablement « quelque part » dans ces données. Les navigateurs et les moteurs de recherche que nous utilisons couramment sont utiles pour trouver de l’information dans des données qui ont déjà été extraites et traitées. Il est toutefois beaucoup plus difficile de fouiller des données brutes, surtout lorsque l’on n’a qu’une idée floue de ce que l’on recherche. Les nouvelles techniques d’ADAO permettent de faire de l’ordinateur un assistant plutôt qu’un simple supercalculateur. Si les hommes préhistoriques vivaient à l’âge de pierre parce qu’ils créaient des outils en pierre, nous qui vivons ensevelis sous des masses de données de toutes sortes, y compris sur nous-mêmes, vivons donc à l’âge des données.

Ken Tapping est astronome à l'Observatoire de radio-astrophysique du Conseil national de recherches du Canada, à Penticton (C.-B.) V2A 6J9.

Tél. : 250-497-2300
Téléc. : 250-497-2355
Courriel : ken.tapping@nrc-cnrc.gc.ca

Date de modification :