Statistiques pour les Sciences Participatives - Statistics for Citizen Sciences

CiSStats est un réseau qui a pour but de rassembler des statisticiens appliqués, des écologues modélisateurs et des associations souhaitant développer des méthodes statistiques pour mieux valoriser les jeux de données actuels et futurs issus des sciences participatives.

Ce site est destiné à vous informer de nos travaux, réunions, projets...

 

Objectifs du réseau

Pour les statisticiens, l’objectif est d’abord d’identifier les principaux problèmes méthodologiques que posent les données issues des sciences participatives -- absence ou faiblesse de la planification, différents types de censures et de biais, protocoles a minima ou même absents, modélisation d'erreurs particulières prenant en compte le très grand nombre et l’hétérogénéité des observateurs, le fait que ces données puissent provenir de multiples sources à protocoles différents -- de manière générique, mais aussi à partir de bases de données tests déjà existantes comportant de plusieurs centaines d'observations à plusieurs millions quand elles sont regroupées sur de plus longues périodes ou de très vastes régions ou pays.

Un second objectif est de proposer des modélisations statistiques qui répondent aux enjeux des sciences participatives : analyse de très grand jeux de données multi-sources par des approches de méta-analyse et data-mining, proposer des corrections pour les différents biais et censures afin de profiter au mieux de la couverture spatiale et temporelle de ces données, proposer des modèles pour jouer la complémentarité entre les dispositifs officiels (observatoires, zones ateliers) et les données participatives (les secondes pouvant servir à généraliser ou valider les résultats des premiers), proposer des outils statistiques robustes, suffisamment simples pour être utilisables et interprétables par le plus grand nombre. 

A plus long terme, la question des échanges et du partage d’enjeux entre scientifiques et réseaux participatifs, se pose et mérite de solliciter des chercheurs en sciences sociales pour mieux comprendre les motivations et fonctionnements des différents types d’associations, et comment elles acceptent de s’approprier les contraintes imposées par certains protocoles ou méthodes statistiques (échantillonnage par exemple). A l'inverse, la question de savoir comment les scientifiques intègrent leur démarche les propositions émanant de non spécialistes est tout aussi importante.

Thèmes du réseau

Automatisation de l'analyse des bases de données opportunistes massives

L'émergence des outils connectés au sein de la société a abouti à une profusion de données acquises et souvent partagées par la société civile. Ces données peuvent être d'intérêt pour de nombreuses questions scientifiques abordées dans le monde académique (effet observateur, hétérogénéité de couverture spatiale, temporelle et taxonomique, absence de réplication...). Parmi ces bases de données massives, on peut citer celles prenant place à une échelle nationale, tel l'observatoire des saisons, Visionature, ou PlantNet. L'exploitation et la valorisation de ces données posent des questions d'ordre méthodologique, comme l'automatisation à large échelle des traitements descriptifs (résumés statistiques, visualisation), l'application à large échelle d'outils statistiques classiques (modèles explicatifs, analyse des corrélations), ou encore l'assimilation de données en ligne (comment actualiser en direct les traitements effectués).

Fusion de données opportunistes massives et de données protocolées

Aux questions opérationnelles précédentes s'ajoutent des questions d'ordre méthodologique pour les statisticiens du monde académique, comme, en particulier, le couplage des données non protocolées abondantes avec des études plus rares mais protocolées, et la mesure de l'information gagnée par l'ajout de ces données issues des sciences participatives. 

Co-construction de questions avec les porteurs d'enjeux

A côté des bases de données nationales, de nombreux porteurs d'enjeux (associations, parc naturels...) récoltent des données permettant de caractériser l'évolution des dynamiques des écosystèmes qu'ils gèrent ou observent. Se pose alors la question du partage et de la définition de questions communes entre statisticiens, écologues et porteurs d'enjeux. Pour le statisticien en particulier, l’objectif sera d'identifier les principaux problèmes méthodologiques que posent les données (absence ou faiblesse de la planification, différents types de censures et de biais, protocoles a minima ou même absents, modélisation d'erreurs particulières prenant en compte le très grand nombre et l'hétérogénéité des observateurs, le fait que ces données puissent provenir de multiples sources à protocoles différents) et proposer des outils adaptés. Comme exemple concret de collaboration, on peut mentionner la mise en place de plans d'expériences, en adéquation avec les outils modernes de mesures (outils connectés) et les réalités d'acquisition des données.

Liste de diffusion

Une liste de diffusion existe, n'hésitez pas à nous contacter si vous êtes intéressés aux adresses suivantes: julien.papaix - at - inrae.fr et emily.walker - at - inrae.fr.

Financement du réseau

Ce réseau est actuellement financé par le Département MATHNUM (Mathématiques et numérique) d'INRAE (l’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement) à des fins prospectives dans le cadre des réseaux incitatifs. Les chercheurs et participants actuels débordent largement le cadre d'INRAE et appartiennent par exemple au MNHN, au CNRS, à l'OFB, à différentes Universités (Pau, La Rochelle, Brest) ou à des associations (voir liste plus complète dans la rubrique "qui sommes nous ?").