Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal

BLABLABLI

Titre 1

Titre 2

Le travail présenté ici a pour objectif de faciliter l’utilisation des vocabulaires contrôlés depuis les entrepôts de données par un public non expert en sémantique, mais ayant une expertise dans des domaines scientifique précis (producteur de données, déposants et réutilisateurs).

  • Améliorer la qualité de la métadonnée mots-clés dans Data INRAE :
    • Faciliter son remplissage pour augmenter le nombre de mots-clés par jeu de données
    • Améliorer la qualité des mots-clés en favorisant l’utilisation de concepts issus de vocabulaires contrôlés plutôt que les termes en saisie libre
  • Améliorer la qualité FAIR des jeux de données de Data INRAE
    • Facile à trouver : les mots-clés contrôlés améliorent l’indexation des jeux de données  avec l’ajout de synonymes et traductions
    • Interopérabilité : les identifiants (URI) des mots-clés permettent d’améliorer l’interopérabilité entre les SI qui utilisent ces vocabulaires contrôlés
    • Réutilisabilité : les données sont mieux décrites. Les vocabulaires contrôlés permettent de désambiguïser le sens que leurs auteurs cherchent à transmettre, grâce au contexte fourni par la hiérarchie des concepts et leurs définitions.
  • Améliorer l’accès aux vocabulaires contrôlés pour des utilisateurs non experts et favoriser le retour d’expérience, pour améliorer la qualité et la pertinence des vocabulaires.

Développement d’un connecteur entre vocabulaires contrôlés et entrepôt de données

Etat des lieux

Les équipes responsables de Data INRAE (développeur et curateur de l’entrepôt) ont observé la faible quantité et qualité des mots-clés décrivant les jeux de données. En effet, cette métadonnée n’étant pas obligatoire et le mode de saisie complexe (4 champs à remplir par mot-clé), elle était souvent ignorée ou mal remplie. Des comptages ont été réalisés via l’API de Recherche Data Gouv qui ont permis de confirmer les observations des équipes Data INRAE (cf. fig 3) : moins de 50 % des jeux de données en 2019, 2020 et 2021 contiennent des mots-clés, on note une progression avec 74 % en 2022 et 63 % en 2023, lorsqu’elle est remplie c’est majoritairement avec des termes « libres » c’est-à-dire non référencés dans un vocabulaire contrôlé (<10 % par année des jeux de données avec un référencement complet (‘ref complet’ sur la figure) entre 2018 et 2022, on note une faible progression à 15 % en 2023).

Solution mise en place

Un connecteur  (autrement appelé MAS – Metadata Annotation System) entre Data INRAE et AgroPortal a donc été conçu, déployé et paramétré pour répondre au besoin de simplification du remplissage de la métadonnée « mots-clés ». L’utilisateur saisit son mot-clé et si ce terme existe dans un vocabulaire connecté, les informations associées à ce terme dans le vocabulaire (identifiant, synonymes et traductions) sont récupérées via le connecteur et intégrées dans les métadonnées.

L’architecture du connecteur et la liste des vocabulaires branchés sont présentés ci-après :

Figure 1: Architecture du connecteur et liste des vocabulaires branchés

Pour valider l’approche et affiner les paramétrages, des tests utilisateurs ont été réalisés, pour une première version de la fonctionnalité, sur un panel de testeurs ayant des profils variés : curateur Data INRAE, administrateur de collection, Référent Données, déposants de Data INRAE. Ces tests visaient à identifier la façon dont les utilisateurs de Data INRAE interagissent avec le formulaire de saisie de métadonnées et le module de recherche de jeux de données. Des entretiens individuels ont eu lieu en visioconférence dans un format semi-dirigé, c’est-à-dire que des « missions » étaient confiées au testeur, qu’il devait compléter librement (cf. Tableau 1).

Une première version de ce connecteur a été mise en production le 2 octobre 2024, dans la partie Data INRAE de l’entrepôt Recherche Data Gouv.

Une nouvelle interface utilisateur

Sur le portail Data INRAE, le connecteur prend désormais la forme d’un champ de saisie unique quand l’ancienne interface en contenait quatre. L’utilisateur sélectionne un mot-clé appartenant à un vocabulaire ou, s’il n’en trouve pas, peut utiliser la saisie libre. Un bouton « développer tous les champs » permet à des utilisateurs plus experts de saisir des termes issus d’autres vocabulaire que ceux branchés au connecteur, en précisant manuellement leurs URI, le nom du vocabulaire source et son URL.

Figure 2 : maquette du connecteur et de ses paramètres, juin 2025.

Nous présentons ici les résultats obtenus après une période de 6 mois de test. 

Title 5

  • FAIR Principles. (s. d.). GO FAIR. Consulté 3 juin 2025, à l’adresse https://www.go-fair.org/fair-principles/
  • Aubin, S., Corre, C., Jonquet, C., Cabrera-Bosquet, L., Rosati, I., NESTOLA, E., Ramezani, P., Tykhonov, V., Flohr, P., Scharnhorst, A., Christelle, P., Alviset, G., Szabo, D., Cecconi, B., pichot, christian, Clastre, P., Seinturier, J., & Caminha Juaçaba Neto, R. (2025). D4.6—Use case driven validation of semantic artefact exploitation within data repositories. https://zenodo.org/records/14917164
  • Kihal, B., Corre, C., Jonquet, C., Szabo, D., Roucou, J., & Aubin, S. (2024). Leveraging AgroPortal ontologies to ease metadata completion and data discovery in Data INRAE. https://zenodo.org/records/14191078
Retour en haut