Le Musée d’Histoire Naturelle et son Projet de Nature Urbaine avec AWS
Depuis son inauguration il y a 143 ans, le Musée d’Histoire Naturelle (NHM) a su captiver des millions de visiteurs désireux d’explorer les mystères du passé. Avec des expositions emblématiques telles que Dippy le diplodocus et des météorites vieilles de plusieurs milliards d’années, le musée a attiré 5,7 millions de personnes l’année dernière, le plaçant au rang de la deuxième attraction la plus visitée du Royaume-Uni.
En se tournant vers l’avenir, le musée a récemment inauguré ses nouveaux jardins en juillet, qui constituent le cœur du Projet de Nature Urbaine. Ce projet vise à répondre à la nécessité croissante de surveiller et d’enregistrer les changements dans la nature urbaine au Royaume-Uni, tout en soutenant sa régénération face à des défis tels que la pollution et l’urbanisation.
Le NHM aspire à faire de son site de cinq acres, situé à South Kensington, l’un des lieux d’étude de la nature urbaine les plus intensivement analysés au monde. Pour ce faire, le musée collabore avec Amazon Web Services (AWS) afin de mettre en place la technologie nécessaire à cette initiative.
Ensemble, le NHM et AWS ont développé une nouvelle plateforme cloud appelée Data Ecosystem, qui sera utilisée pour collecter et partager des données sur la biodiversité provenant de diverses sources. Les jardins abriteront également un réseau de 25 capteurs scientifiques, chargés de recueillir des données environnementales et acoustiques, telles que les sons des étangs, les chants d’oiseaux et le bruit de la circulation.
Les enregistrements biologiques couvriront plusieurs axes de recherche, incluant des observations visuelles de la faune, l’extraction d’ADN à partir d’échantillons de sol et d’eau, ainsi que des enregistrements audio.
Les technologies d’AWS permettent de centraliser ces différents types de données. Le NHM utilise Amazon DocumentDB et Amazon S3 pour le stockage des données, ainsi que le service d’intégration de données sans serveur AWS Glue pour ingérer les données dans les bases de données centrales.
Chaque type de donnée est associé à un microservice spécifique, qu’il s’agisse d’ADN environnemental, d’audio ou d’observations visuelles. Chacun de ces microservices dispose de son propre DocumentDB et S3.
« Glue est le produit d’AWS dédié au transfert de données. Chaque fois que nous souhaitons créer un nouvel ensemble de données et le déplacer d’un point A à un point B, cela nécessite un développement spécifique », explique Jason Hale, responsable du produit Data Ecosystem au NHM. « Si nous voulons combiner l’ADN environnemental avec des données acoustiques, nous pouvons utiliser un job Glue pour lire ces deux sources de données distinctes et les rassembler. »
Une interface frontale est mise en place au-dessus de ces microservices et de la couche Glue, permettant aux chercheurs d’accéder aux données.
Le musée ne se limite pas à la collecte de nouvelles données pour ce projet. Depuis 1994, le NHM surveille la faune dans ses jardins et a enregistré plus de 50 000 observations visuelles d’espèces, où chaque espèce a été identifiée avec précision. Ces données sont prêtes à être importées depuis la plateforme iRecord existante directement dans le Data Ecosystem. Le musée continuera d’utiliser ce logiciel de surveillance biologique pour enregistrer les observations futures, qui seront intégrées directement dans le Data Ecosystem.
Un Projet Axé sur le Changement
Ce projet vise à aborder des défis concrets et à proposer des solutions, plutôt que de se limiter à un travail académique. « Nous savons qu’il y a un besoin croissant de comprendre la nature qui nous entoure, ainsi que les raisons de ses changements. Nous devons utiliser différentes méthodes pour identifier les espèces présentes dans ce jardin, avec 3 500 espèces juste à notre porte », déclare John Tweddle, responsable du Centre Angela Marmont pour la biodiversité au Royaume-Uni au NHM.
« Les observations visuelles, l’ADN environnemental, la biologie acoustique et les données environnementales que nous pouvons collecter, qui seront intégrées dans le Data Ecosystem, doivent toutes se combiner pour construire une image globale de ce qui existe et de son évolution. »
Une fois ces informations collectées, le NHM pourra commencer à explorer les raisons des changements observés. Si la situation s’améliore, est-ce que la gestion du paysage ou la conception de la ville y contribuent ? Si la situation se dégrade, quelles actions peuvent être entreprises pour ralentir cette tendance et, espérons-le, l’inverser ?
Atteindre cet objectif nécessite une grande quantité de données provenant de différentes sources. Cependant, sans outils partagés pour agréger ces données et produire des indicateurs de biodiversité à partir de types de données disparates, il est difficile d’obtenir des informations utiles.
« Avant ce partenariat, le secteur de la biodiversité était composé de personnes spécialisées dans des domaines variés. Nos données étaient dispersées, peut-être sur différents serveurs cloud ou sur nos ordinateurs portables. Elles n’étaient pas combinées et étaient dans des formats que nous pouvions interpréter individuellement, mais cela compliquait le partage », ajoute Tweddle.
Le Data Ecosystem permet de rassembler et d’analyser toutes ces données provenant de sources variées pour déterminer les actions à entreprendre.
« C’est là que résident les véritables avantages. Nous pouvons développer des méthodes simples pour capturer, partager et interpréter les données, que d’autres pourront également utiliser », poursuit Tweddle.
Cela pourrait inclure des propriétaires terriens, des entreprises, des organisations de conservation, des groupes communautaires locaux ou des gestionnaires de parcs.
« Nous travaillons avec eux pour voir comment ils peuvent collecter ces données, les partager avec notre système et comment nous pouvons les aider à les interpréter. Il y a un potentiel énorme, mais il faut une infrastructure technique avec l’expertise nécessaire pour tout assembler », conclut Tweddle.
Maintenant que les jardins sont ouverts, le NHM est prêt à générer d’importants volumes de données et à tester la robustesse du système. La prochaine étape consistera à ajouter une couche d’interprétation au système, permettant aux utilisateurs d’intégrer leurs données et d’obtenir des analyses en retour.
Le NHM utilise la plateforme de machine learning AWS SageMaker pour activer cette fonctionnalité, avec le microservice de produit de données servant de backend pour alimenter les données.
« Nous construisons un système où SageMaker peut se connecter à ce service de produit de données. Cela nous permet de séparer physiquement les données brutes collectées, c’est-à-dire les données initiales, des données que nous souhaitons que les utilisateurs utilisent pour leurs recherches », explique Hale. « Nous avons un processus qui transforme ces données brutes en produits de données, qui peuvent ensuite être accessibles via SageMaker. »
Le NHM prévoit de générer environ 20 téraoctets de données au cours de la première année, la majorité provenant d’enregistrements audio. Les 25 capteurs disséminés dans les jardins du musée enregistreront en continu des sons et les transmettront au Data Ecosystem.
Actuellement, le système est réservé aux chercheurs internes au centre de données du NHM, mais à long terme, le musée envisage de partager ses données avec le secteur de la biodiversité dans son ensemble. Ce secteur est passé d’une situation de manque de données à une saturation d’informations, mais cela pose également des défis, selon Tweddle.
« Nous savons qu’il y a un besoin croissant de comprendre la nature qui nous entoure, ainsi que les raisons de ses changements. »
« Nous en sommes maintenant au point où, avec des capteurs acoustiques, de l’ADN environnemental et des enregistrements visuels, nous frôlons la saturation de données. Les grandes questions sont alors de savoir comment gérer, condenser et combiner ces données, et ce qui fonctionne ou non lors de la combinaison de différents types de données. Cette infrastructure avec le Data Ecosystem nous offre l’opportunité d’explorer cela en profondeur », ajoute-t-il.
Le NHM espère que la technologie mise à disposition dans le cadre de ce projet incitera davantage de personnes à se connecter à la nature. Au Royaume-Uni, environ 70 000 à 90 000 bénévoles observent visuellement la faune en termes d’acoustique et d’ADN environnemental, mais Hale estime qu’il y a probablement moins de 500 chercheurs actifs.
« Une fois que ces technologies deviendront plus accessibles, on peut imaginer la quantité de données qui sera générée. On peut vraiment envisager l’impact potentiel d’un groupe communautaire capable d’enregistrer des sons avec son téléphone et de les télécharger dans un système qui leur indique immédiatement quel oiseau se trouve dans l’enregistrement. Ou encore, une école prenant un échantillon d’étang et pouvant détecter la biodiversité sur son site. »
L’objectif ultime du Projet de Nature Urbaine est de « donner aux citoyens du Royaume-Uni la motivation et les outils nécessaires pour protéger la nature dans les villes et les agglomérations ». Étant donné que le Royaume-Uni est l’un des pays les plus appauvris en nature, l’association de l’immense base de données et de l’expertise scientifique du NHM avec la technologie d’AWS pourrait contribuer à restaurer nos espaces sauvages.