Non classé

Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal

Publication des échelles phénologiques sur le Web Découvrez grâce à ce retour d’expérience comment les échelles phénologiques deviennent accessibles et comparables grâce aux technologies du Web sémantique. Explorez les outils et méthodes qui facilitent leur publication et leur réutilisation sur le Web. Une collaboration entre les unités INRAE (MISTEA, AGAP, MAIAGE, DipSO), Cnrs (CEFE), le CATI CODEX, l’entreprise Elzeard, l’Institut Français du Vin (IFV), l’institut Terres Inovia et l’ACTA.   Auteur : Catherine RousseyContributeur :  Florence Amardeilh, Amira Azizan, Stephan Bernard, Robert Bossy, Evelyne Costes, Marine Courtin, Baptiste Darnala, Christian Debord, Xavier Delpuech, Isabelle Farrera, Matthieu Hirschy, Clément Jonquet, Marc Raynal, Frédéric Salvi, François-Xavier Sennesal, Anne Tireau, Marc Vergnes. Voir la liste complète Un enjeu en agronomie : créer un cadre méthododologique pour la description des stades phénologiques des plantes cultivées L’étude phénologique d’une plante consiste à observer à quelle date les stades apparaissent. Un stade phénologique, ou stade de développement des plantes, caractérise une phase de développement de la plante pendant son cycle de vie.  Les variations temporelles sur l’apparition d’un stade peuvent dépendre du climat ou d’autres facteurs comme la variété de la plante. Une échelle phénologique est un ensemble de stades. Plusieurs échelles phénologiques existent par espèce cultivée, par exemple BBCH,  Eichhorn-Lorenz, Bagglioni, IFV Epicure et IFV label pour la vigne. L’échelle phénologique BBCH améliorée (Biologische Bundesanstalt, Bundessortenamt und CHemische Industrie) propose une codification homogène des stades de développement communs à différentes espèces végétales cultivées. BBCH décrit plusieurs échelles : l’échelle générale et des échelles spécifiques par culture (dites « échelles individuelles »).  Le projet ANR « Des Données aux Connaissances en Agronomie et Biodiversité » (D2KAB) puis le projet CASDAR  « Standardiser les données expérimentales et techniques pour faciliter leur réutilisation et accélérer l’innovation et le développement agricole : application aux travaux sur les biosolutions » (STAR) ont créé un cadre méthodologique pour la description sémantique des stades de développement des plantes fondé sur l’ontologie « BBCH-based Plant Phenological Description Ontology » (PPDO). L’Institut Français de la Vigne et du vin (IFV) et Terres Inovia ont aligné leurs échelles internes existantes avec les échelles BBCH. L’objectif principal de ce travail est de mettre à disposition les échelles phénologiques standardisées et leurs stades de développement pour en faciliter la réutilisation et la comparaison. En alignant ces échelles, nous permettons de consolider les observations phénologiques provenant de multiples sources et acteurs, même si ces sources sont variées et hétérogènes. Ainsi des sources de données multiples et hétérogènes contenant des observations phénologiques pourront être comparées dans le but d’étudier par exemple le comportement des végétaux face aux changements climatiques. Mise en oeuvre de la méthode Linked Open Terms pour produire l’ontologie PPDO et les graphes des échelles par culture Nous avons réutilisé et adapté la méthode Linked Open Terms (LOT) de publication des données sur le Web à l’aide des technologies Web Sémantique. Tout d’abord l’ontologue a produit l’ontologie « BBCH-based Plant Phenological Description Ontology » (PPDO) pour définir un schéma de représentation unifiée des échelles et de leurs stades fondée sur la codification BBCH. Ensuite, les agronomes ont cherché des sources de référence publiées dans des revues techniques ou scientifiques décrivant les échelles de leur choix. A partir de ces sources, les agronomes ont ensuite ont enrichi ou corrigé les définitions en langue naturelle des différents stades dans des fichiers CSV conçus par l’ontologue. Ce dernier a ensuite collaboré avec les agronomes pour aligner entre eux les stades des échelles d’une même culture. Des diagrammes ont été réalisés pour documenter les alignements, comme le montre la Figure 1. Développement d’un connecteur entre vocabulaires contrôlés et entrepôt de données Etat des lieux Les équipes responsables de Data INRAE (développeur et curateur de l’entrepôt) ont observé la faible quantité et qualité des mots-clés décrivant les jeux de données. En effet, cette métadonnée n’étant pas obligatoire et le mode de saisie complexe (4 champs à remplir par mot-clé), elle était souvent ignorée ou mal remplie. Des comptages ont été réalisés via l’API de Recherche Data Gouv qui ont permis de confirmer les observations des équipes Data INRAE (cf. fig 3) : moins de 50 % des jeux de données en 2019, 2020 et 2021 contiennent des mots-clés, on note une progression avec 74 % en 2022 et 63 % en 2023, lorsqu’elle est remplie c’est majoritairement avec des termes « libres » c’est-à-dire non référencés dans un vocabulaire contrôlé (<10 % par année des jeux de données avec un référencement complet (‘ref complet’ sur la figure) entre 2018 et 2022, on note une faible progression à 15 % en 2023). Solution mise en place Un connecteur  (autrement appelé MAS – Metadata Annotation System) entre Data INRAE et AgroPortal a donc été conçu, déployé et paramétré pour répondre au besoin de simplification du remplissage de la métadonnée « mots-clés ». L’utilisateur saisit son mot-clé et si ce terme existe dans un vocabulaire connecté, les informations associées à ce terme dans le vocabulaire (identifiant, synonymes et traductions) sont récupérées via le connecteur et intégrées dans les métadonnées. L’architecture du connecteur et la liste des vocabulaires branchés sont présentés ci-après : Figure 1: Architecture du connecteur et liste des vocabulaires branchés Pour valider l’approche et affiner les paramétrages, des tests utilisateurs ont été réalisés, pour une première version de la fonctionnalité, sur un panel de testeurs ayant des profils variés : curateur Data INRAE, administrateur de collection, Référent Données, déposants de Data INRAE. Ces tests visaient à identifier la façon dont les utilisateurs de Data INRAE interagissent avec le formulaire de saisie de métadonnées et le module de recherche de jeux de données. Des entretiens individuels ont eu lieu en visioconférence dans un format semi-dirigé, c’est-à-dire que des « missions » étaient confiées au testeur, qu’il devait compléter librement (cf. Tableau 1). Une première version de ce connecteur a été mise en production le 2 octobre 2024, dans la partie Data INRAE de l’entrepôt Recherche Data Gouv. Une nouvelle interface utilisateur Sur le portail Data INRAE, le connecteur prend désormais la forme d’un champ de saisie unique quand l’ancienne interface en contenait quatre. L’utilisateur sélectionne un mot-clé appartenant à un vocabulaire ou, s’il n’en trouve pas, peut utiliser la saisie

Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal Lire la suite »

Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal

Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal BLABLABLI Auteur : Daniel Jacob Contributeur :  François Ehrenmann ; Anne-Sophie Bage, Sophie Aubin, Sonia Bravo Titre 1 Titre 2 Le travail présenté ici a pour objectif de faciliter l’utilisation des vocabulaires contrôlés depuis les entrepôts de données par un public non expert en sémantique, mais ayant une expertise dans des domaines scientifique précis (producteur de données, déposants et réutilisateurs). Améliorer la qualité de la métadonnée mots-clés dans Data INRAE : Faciliter son remplissage pour augmenter le nombre de mots-clés par jeu de données Améliorer la qualité des mots-clés en favorisant l’utilisation de concepts issus de vocabulaires contrôlés plutôt que les termes en saisie libre Améliorer la qualité FAIR des jeux de données de Data INRAE Facile à trouver : les mots-clés contrôlés améliorent l’indexation des jeux de données  avec l’ajout de synonymes et traductions Interopérabilité : les identifiants (URI) des mots-clés permettent d’améliorer l’interopérabilité entre les SI qui utilisent ces vocabulaires contrôlés Réutilisabilité : les données sont mieux décrites. Les vocabulaires contrôlés permettent de désambiguïser le sens que leurs auteurs cherchent à transmettre, grâce au contexte fourni par la hiérarchie des concepts et leurs définitions. Améliorer l’accès aux vocabulaires contrôlés pour des utilisateurs non experts et favoriser le retour d’expérience, pour améliorer la qualité et la pertinence des vocabulaires. Développement d’un connecteur entre vocabulaires contrôlés et entrepôt de données Etat des lieux Les équipes responsables de Data INRAE (développeur et curateur de l’entrepôt) ont observé la faible quantité et qualité des mots-clés décrivant les jeux de données. En effet, cette métadonnée n’étant pas obligatoire et le mode de saisie complexe (4 champs à remplir par mot-clé), elle était souvent ignorée ou mal remplie. Des comptages ont été réalisés via l’API de Recherche Data Gouv qui ont permis de confirmer les observations des équipes Data INRAE (cf. fig 3) : moins de 50 % des jeux de données en 2019, 2020 et 2021 contiennent des mots-clés, on note une progression avec 74 % en 2022 et 63 % en 2023, lorsqu’elle est remplie c’est majoritairement avec des termes « libres » c’est-à-dire non référencés dans un vocabulaire contrôlé (<10 % par année des jeux de données avec un référencement complet (‘ref complet’ sur la figure) entre 2018 et 2022, on note une faible progression à 15 % en 2023). Solution mise en place Un connecteur  (autrement appelé MAS – Metadata Annotation System) entre Data INRAE et AgroPortal a donc été conçu, déployé et paramétré pour répondre au besoin de simplification du remplissage de la métadonnée « mots-clés ». L’utilisateur saisit son mot-clé et si ce terme existe dans un vocabulaire connecté, les informations associées à ce terme dans le vocabulaire (identifiant, synonymes et traductions) sont récupérées via le connecteur et intégrées dans les métadonnées. L’architecture du connecteur et la liste des vocabulaires branchés sont présentés ci-après : Figure 1: Architecture du connecteur et liste des vocabulaires branchés Pour valider l’approche et affiner les paramétrages, des tests utilisateurs ont été réalisés, pour une première version de la fonctionnalité, sur un panel de testeurs ayant des profils variés : curateur Data INRAE, administrateur de collection, Référent Données, déposants de Data INRAE. Ces tests visaient à identifier la façon dont les utilisateurs de Data INRAE interagissent avec le formulaire de saisie de métadonnées et le module de recherche de jeux de données. Des entretiens individuels ont eu lieu en visioconférence dans un format semi-dirigé, c’est-à-dire que des « missions » étaient confiées au testeur, qu’il devait compléter librement (cf. Tableau 1). Une première version de ce connecteur a été mise en production le 2 octobre 2024, dans la partie Data INRAE de l’entrepôt Recherche Data Gouv. Une nouvelle interface utilisateur Sur le portail Data INRAE, le connecteur prend désormais la forme d’un champ de saisie unique quand l’ancienne interface en contenait quatre. L’utilisateur sélectionne un mot-clé appartenant à un vocabulaire ou, s’il n’en trouve pas, peut utiliser la saisie libre. Un bouton « développer tous les champs » permet à des utilisateurs plus experts de saisir des termes issus d’autres vocabulaire que ceux branchés au connecteur, en précisant manuellement leurs URI, le nom du vocabulaire source et son URL. Figure 2 : maquette du connecteur et de ses paramètres, juin 2025. Nous présentons ici les résultats obtenus après une période de 6 mois de test.  Title 5 Références citées FAIR Principles. (s. d.). GO FAIR. Consulté 3 juin 2025, à l’adresse https://www.go-fair.org/fair-principles/ Aubin, S., Corre, C., Jonquet, C., Cabrera-Bosquet, L., Rosati, I., NESTOLA, E., Ramezani, P., Tykhonov, V., Flohr, P., Scharnhorst, A., Christelle, P., Alviset, G., Szabo, D., Cecconi, B., pichot, christian, Clastre, P., Seinturier, J., & Caminha Juaçaba Neto, R. (2025). D4.6—Use case driven validation of semantic artefact exploitation within data repositories. https://zenodo.org/records/14917164 Kihal, B., Corre, C., Jonquet, C., Szabo, D., Roucou, J., & Aubin, S. (2024). Leveraging AgroPortal ontologies to ease metadata completion and data discovery in Data INRAE. https://zenodo.org/records/14191078 Citer cette page Auteurs Relecteurs Financeur Dates Télécharger le contenu Citer cette page INRAE (2025), Des vocabulaires contrôlés pour décrire et indexer les données de Data INRAE, https://istblogs.d-marheine.com/lovinra/vocabulaires-controles-datainrae/ Auteurs Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo. Relecteurs Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo. Financeur Dates Date de création : 18 novembre 2022 Mises à jour :  Télécharger le contenu Contenu de l’onglet

Systèmes et standards pour le partage et l’intégration FAIR des données de phénotypage végétal Lire la suite »

Ontologies fondationnelles

Ontologies fondationnelles Les ontologies fondationnelles sont les ontologies de niveau sémantique le plus élevé (top level ou upper level), sur lesquelles d’autres ontologies peuvent s’appuyer. Qu’est-ce qu’une ontologie fondationnelle ? Une ontologie fondationnelle est une ontologie de « niveau supérieur » appelée Top level ontology ou Upper level ontology. Ces ontologies de niveau supérieur sont agnostiques (indépendantes d’un domaine particulier). Elles définissent les catégories les plus générales, au sommet de la hiérarchie, qui peuvent être partagées par différents  domaines. Elles servent principalement à assurer l’interopérabilité sémantique des ontologies entre plusieurs domaines. Elles servent de référence pour  le raisonnement et s’attachent généralement à définir les mêmes types d’entités génériques appelées « universals » en anglais (Jansen, 2008) : entités abstraites et entités matérielles entité indépendante (substance) et entité dépendante (qualité, caractéristique) continuant (ou endurant) et occurrent (ou perdurant) temps et espace Comme il n’est pas si facile de produire et d’approuver des ontologies fondationnelles de façon unanime, plusieurs ontologies de haut niveau ont été produites au fil du temps. On  peut citer par exemple BFO (Basic Formal Ontology), DOLCE (Descriptive  Ontology for Linguistic and Cognitive Engineering), ou encore SUMO (Suggested upper Merged Ontology). Introduction aux ontologies Différentes visions du monde Les ontologies reflètent différentes « visions » ou conceptions du monde. Les hiérarchies de classes des ontologies DOLCE, BFO et SUMO sont présentées ci-dessous pour illustrer la différence de conceptualisation (ou « vision du monde ») entre ces ontologies : Hiérarchie de classes de BFO (extrait) Hiérarchie de classes de DOLCE (extrait) Hiérarchie de classess de SUMO (extrait) On peut constater à travers ces 3 illustrations que les conceptions diffèrent sur le choix de la séparation entre les entités physiques ou abstraites, les process/activités ou les objets,  la façon d’attribuer des caractéristiques ou « qualités » aux entités ainsi que la façon de décrire les notions spatio-temporelles. Un effort d’opérationnalisation dans le cadre du Web sémantique Les ontologies fondationnelles proposent des visions différentes du monde, ce qui a une incidence sur les représentations et les raisonnements logiques qui peuvent en être tirés. Un effort d’opérationnalisation s’est avéré nécessaire avec l’émergence du Web sémantique et l’apparition du langage ontologique OWL (Web Ontology Language). Par exemple, l’ontologie fondationnelle UFO a été développée au cours des deux dernières décennies afin de rassembler de manière cohérente des théories issues de domaines tels que les sciences cognitives, la linguistique et la logique philosophique. L’une des applications les plus influentes de UFO a été la conception du langage de modélisation conceptuelle OntoUML et de son écosystème d’outils méthodologiques et informatiques. Hiérarchie de classes de UFO (extrait) Des efforts de simplification ont aussi émergé du côté de OBO Foundry avec la création de l’ontologie COB (Core Ontology for Biology and Biomedicine). L’objectif est d’améliorer l’interopérabilité et la réutilisation au sein de la communauté OBO grâce à une meilleure coordination des termes clés de BFO et RO pour les classes et les relations.  Classes et relations de COB (extrait de BioPortal) Plus récemment, une autre ontologie de haut niveau nommée SULO (Simplifed Upper Level Ontology) a également été créée pour proposer un ensemble réduit de classes en RDF/OWL : Classes et relation de SULO  : la ligne continue indique la connexion entre le domaine et la portée (range) ; la ligne pointillée indique une restriction d’utilisation dans l’axiome de classe. Utilisation des ontologies fondationnelles Base pour le développement d’ontologies d’application Les ontologies fondationnelles servent de base de référence pour le développement d’ontologies plus spécialisées, comme des ontologies d’application de niveaux intermédiaires ou des ontologies de domaine. Le fait de se rattacher à une ontologie de haut niveau formel permet de maintenir l’intégrité du modèle et la cohérence logique. Une norme ISO est venue définir les caractéristiques requises d’une ontologie de niveau supérieur (Top Level Ontology ou TLO), neutre vis-à-vis du domaine et fournissant le contenu ontologique global qui soutiendra l’interopérabilité sémantique en tandem avec les ontologies de domaine à des niveaux inférieurs. Par exemple, une suite d’ontologies nommée CCO (Common Core Ontologies) est venue étendre BFO sous la forme de différents modules ontologiques utilisés dans le domaine de la défense et de l’industrie des télécommunications aux Etats-Unis. La suite CCO a été développée et est maintenue conformément aux principes de l’Open Biological and Biomedical Ontologies (OBO) Foundry, bien qu’elle ne fasse pas partie de cette fondation en raison de son champ d’application. Base pour le raisonnement La communauté travaillant sur la représentation des connaissances s’est emparée du terme ontologie au cours des années 1990 afin de désigner la composante terminologique des bases de connaissances, également souvent appelée « vocabulaire du domaine». Ce sont des énoncés (appelés TBox) qui décrivent un domaine d’intérêt à l’aide d’un vocabulaire de domaine en définissant les classes et les axiomes. Les bases de connaissances contiennent les graphes de données annotées ou typées à l’aide de l’ontologie : ce sont les énoncés d’assertion (appelés ABox) qui utilisent le vocabulaire défini par le TBox pour décrire les instances de données et leurs associations. On peut aussi voir ça comme une algèbre : on a des éléments entre lesquels on définit des opérations ou relations logiques au moyen d‘une ontologie. Les systèmes à base de connaissances utilisent un moteur d’inférence pour tirer des conclusions à partir des données. La combinaison de la boîte T avec la boîte A est ce que nous appelons ordinairement un graphe de connaissances. Les deux boîtes sont nécessaires pour avoir un graphe de connaissances utilisable, sinon cela ne se distinguerait pas des données stockées sous la forme de tables relationnelles. De plus, c’est la logique maintenue par la boîte T qui permet l’inférence (le raisonnement). BFO DOLCE SUMO Le Web sémantique et la représentation des connaissances OWL UFO OntoUML COB SULO Norme ISO/IEC 21838-1 CCO Principes de l’OBO Foundry Ontologies et raisonnement Pour aller plus loin Bandrowski, A., Brinkman, R., Brochhausen, M., Brush, M. H., Bug, B., Chibucos, M. C., Clancy, K., Courtot, M., Derom, D., Dumontier, M., Fan, L., Fostel, J., Fragoso, G., Gibson, F., Gonzalez-Beltran, A., Haendel, M. A., He, Y., Heiskanen, M., Hernandez-Boussard, T., Jensen, M., … Zheng, J. (2016). The Ontology

Ontologies fondationnelles Lire la suite »

Le Web sémantique et la représentation des connaissances

Le Web Sémantique ou « web des données » est une extension du Web documentaire. Il contient non seulement des documents, à destination d’agents humains, mais aussi des données, à destination d’agents logiciels (les machines). Il s’appuie sur un standard pour décrire les ressources: le standard Resource Description Framework (RDF) à la base des graphes de connaissances.

Le Web sémantique et la représentation des connaissances Lire la suite »

Retour en haut