Si l’utilisation de l’intelligence artificielle semble être incontournable aujourd’hui, on peut s’interroger sur les conséquences potentielles de cet outil pour les programmes de science participative. En facilitant la reconnaissance d’espèces, favorise-t-il la participation d’un plus grand nombre de personnes ou bien agit-il au détriment de l’apprentissage de la reconnaissance des espèces par les participants ?
Cette question, déjà soulevée par des chercheurs impliqués dans les sciences participatives, est à l’ordre du jour pour Vigie Nature. Elle fait l’objet d’une communication portée par Grégoire Lois, directeur adjoint de Vigie Nature, à la conférence de L'association européenne des sciences participatives, l'ECSA, qui s’est tenue à Berlin en octobre.
Comment fonctionne la reconnaissance automatique ?
Un programme informatique est créé de manière à repérer des caractéristiques sur des supports visuels ou sonores (tels que des photos ou des enregistrements) et les comparer avec « ses connaissances » (une base de données). Lorsque l’on charge une photo ou un enregistrement, il est ainsi capable de proposer le ou les noms des espèces les plus ressemblantes ou qui émettent des sons similaires, selon « son savoir » : Il est d’autant plus performant qu’on lui aura fourni une banque de données conséquente pour nourrir son aptitude à reconnaitre les critères déterminants. Ce type de système est déjà utilisé au sein de Vigie-Nature, par exemple pour la reconnaissance des plantes via l’application Pl@ntnet, pour les contributeurs du Spipoll. Il a également été mis en place pour Vigie-chiro et pourrait être une explication du succès que rencontre ce programme, puisqu’il est le seul à proposer un moyen facilement accessible de découvrir avec quelles espèces de chauves-souris nous cohabitons.
Exemple d’une « collection » d’observation du Spipoll : l’observateur charge ses photos sur le site internet dédié et identifie chacun des insectes photographiés.
La reconnaissance automatique : à l’aide ou au détriment de l’apprentissage des observateurs ?
Pendant les années confinées, Jean Cohen a procédé à des tests d’intégration d’IA suivant trois technologies différentes pour identifier les insectes à partir des photos des collections du Spipoll. « Ça marche très bien, et on se demande bien qu’en faire maintenant ! » résume Grégoire. L’identification des espèces est une étape qui se situe au cœur des programmes de sciences participatives : Elle est cruciale pour que les recherches s’appuient sur des données solides et c’est aussi celle par laquelle les participants acquièrent un savoir naturaliste. Or, « L’engagement des participants est une des principales préoccupations de l’équipe de Vigie Nature » rappelle Grégoire, il n’est pas question que leur rôle se réduise à charger des photos d’espèces qui seront reconnues par une intelligence artificielle. Pour ceux dont le moteur est l’apprentissage, l’activité pourrait perdre de son intérêt. Et au-delà, puisque l’auto-dévaluation face à l’efficacité de la machine compte parmi les facteurs de désengagement, selon M. Loftian, qui dresse un tableau des bénéfices et des risques de l’intégration de l’intelligence artificielle dans ce type de programme1. Alors que l’identification à l’aide d’une clé permet aux participants d’apprendre : Nicolas Deguines, données à l’appui, a montré que plus on participe, moins on se trompe dans les identifications, et c’est ainsi que petit à petit, on devient entomologue des insectes floricoles 2 !
Il n’en reste pas moins que l’étape d’identification peut être un frein à la participation, une difficulté qui peut confronter l’observateur en herbe. Dans le cadre du Spipoll, la question se pose alors en ces termes : De quelle manière utiliser l’IA pour faciliter cette étape et motiver plus de personnes à rejoindre la communauté des observateurs, tout en leur permettant de progresser et d’acquérir des connaissances au cours de leur parcours d’observateur ?
Entre le programme d’IA qui détermine l’espèce directement une fois la photo chargée et celui qui a reconnu l’espèce mais accompagne le participant dans la détermination en lui suggérant d’observer telle ou telle caractéristique, il y a aussi ceux qui attribuent des probabilités que ce soit telle ou telle espèce, ou encore ceux qui composent entre ces probabilités et des caractères morphologiques à regarder. A voir quelle formule sera le meilleur compromis pour concilier aide et apprentissage…
La probabilité de faire une bonne identification augmente avec le nombre de participation que l’on fait, pour tous les taxons observés.
Et si l’IA se trompe ? Le savoir naturaliste à la rescousse !
La robustesse de l’identification automatique, on l’a vu, dépend du jeu de données d’apprentissage qui lui est fourni. En d’autres termes, l’IA peut se tromper. De plus, selon le système de reconnaissance mis en place, des biais pourraient s’introduire dans les données recueillies. Par exemple, afin de faciliter l’identification pour un observateur non averti, le système peut être conçu de manière à lui proposer une liste restreinte d’espèces, ajustée à la localisation de l’observation. Si je charge la photo d’un individu d’un taxon et que le programme intègre les métadonnées de localisation de la photo pour restreindre la liste, celle-ci comprendra les espèces qui possèdent le même genre de caractères visibles sur la photo et qui ont été signalées localement. Mais alors, qu’en est-il des espèces rarement signalées et reconnaissables seulement par des spécialistes ? Un tel filtrage risque de pousser à indiquer préférentiellement des espèces communes. Il y a là un risque « d’érosion de données » pour des espèces rarement signalées. Ainsi, la manière d’implémenter la reconnaissance informatique a toute son importance pour la qualité des données recueillies.
Venir pointer les erreurs de la machine pourrait être une nouvelle manière de participer. En effet, il est possible de faire en sorte que lorsque le système identifie une espèce, il envoie un message aux experts qui ont une bonne connaissance de cette espèce afin que ceux-ci valident ou infirment l’identification, cette nouvelle information venant nourrir la base d’apprentissage du système. Bien que cela suppose le développement d’une interface lourde qui n’est pas encore d’actualité, cette nouvelle forme de participation est en discussion pour le programme Vigie-chiro.
HD.
1 Lotfian, M., Ingensand, J., & Brovelli, M. A. (2021). The partnership of citizen science and machine learning: benefits, risks, and future challenges for engagement, data collection, and data quality. Sustainability, 13(14), 8087.
2 Deguines, N., de Flores, M., Loïs, G., Julliard, R., & Fontaine, C. (2018). Fostering close encounters of the entomological kind. Frontiers in Ecology and the Environment, 16(4), 202-203.