MilkOligoThesaurus, un vocabulaire pour retrouver les oligosaccharides du lait

Nous présentons ici un retour d’expérience de la construction d’un vocabulaire destiné à l’exploration de textes et de données dans le cadre de l’ANR HoloOLIGO.

La démarche s’est basée sur une exploration de la littérature et des bases de données scientifiques. Les informations collectées ont ensuite été consignées sous la forme d’un vocabulaire standardisé à l’aide de SKOS et rendu public.

Contexte

Les oligosaccharides du lait (milk oligosaccharides ou MO) suscitent un intérêt croissant en raison de leurs nombreux avantages pour la santé des nouveau-nés et tout au long de la vie. Un grand nombre de structures d’oligosaccharides ont été identifiées dans le lait des mammifères. Toutefois, la structure des MO est particulièrement difficile à décrire car elle résulte de la combinaison de 5 monosaccharides liés par diverses liaisons glycosidiques formant des matrices structurellement diverses et complexes d’oligosaccharides linéaires et ramifiés.

nommage_oligosaccharide
Exemple de la diversité d’appellation d’un oligosaccharide vus dans 6 articles de la littérature

L’exploration de la littérature et l’extraction d’informations pertinentes sur la diversité des MO au sein d’une même espèce ou d’une espèce à l’autre semblent prometteuses pour élucider le rôle structure-fonction des MO. Cependant, la manière de nommer ces MO varie grandement d’un auteur à l’autre, ce qui rend cette exploration difficile. L’existence d’un thésaurus listant et organisant les oligosaccharides du lait et leurs synonymes permet de contourner cette difficulté.

Le projet ANR holoOLIGO

Premier prébiotique disponible pour le nouveau-né, les oligosaccharides du lait (MO) régulent la composition du microbiote intestinal et modulent la réponse immunitaire de l’hôte, jouant un rôle crucial dans l’assemblage de l’holobionte. Le projet ANR HoloOLIGO s’intéresse à deux modèles d’animaux d’élevage (le porc et le lapin) de maturité différente à la naissance, pour élucider les liens de causalité entre les structures des MO et le développement du microbiote et du système immunitaire des jeunes. Ce projet combine trois types d’approche :

  1. in silico avec la production d’une base de données par data mining, afin de disposer d’un outil de visualisation et d’analyse de la diversité des structures des MO couvrant l’ensemble des mammifères
  2. in vitro pour la réalisation de test structure/fonction des MO sur bactéries commensales et les cellules intestinales immunitaires et
  3. in vivo pour l’exploration de la diversité des MO, la validation de leur effets et l’évaluation du déterminisme génétique de la composition des MO.
Organisation du projet HoloOLIGO

Le thésaurus MilkOligoThesaurus

MilkOligoThesaurus contient les noms et synonymes d’oligosaccharides du lait collectés à partir d’articles clés sur les analyses du lait de mammifères. Chaque entrée propose une description complète de leur composition en monosaccharides ainsi que de leur structure. Lorsqu’elle est disponible, chaque molécule de MO unique est liée à son identifiant dans les bases de données PubChem et ChEBI du NCBI. 

Produit dans le cadre de l’ANR HoloOLIGO, ce thésaurus est une ressource précieuse qui rassemble les variations de dénomination des MO qui ne sont pas trouvées ailleurs pour (i) l’exploration de textes et de données afin de permettre l’annotation automatique et l’extraction rapide de données sur les oligosaccharides du lait à partir d’articles scientifiques ; (ii) les chercheurs en biologie qui souhaitent rechercher ou déchiffrer la structure des oligosaccharides du lait sur la base de n’importe lequel de leurs noms, abréviations ou compositions de monosaccharides.

MilkOligoThesaurus est disponible à l’origine sous forme d’un fichier texte tabulé. Il rassemble 245 structures d’oligosaccharides uniques décrites par 22 caractéristiques (colonnes), dont le nom de la molécule, son abréviation, les identifiants des bases de données chimiques si disponibles, la composition du monosaccharide, les informations chimiques (formule moléculaire, masse monoisotopique), les synonymes pour les différentes dénominations ou désignations existantes, sa formule sous forme condensée, et sous forme condensée abrégée, le nom systématique abrégé, le nom systématique, le groupe d’isomères et les sources des articles scientifiques. Le contenu du thésaurus évoluera au fur et à mesure de la découverte de nouveaux oligosaccharides du lait ou de nouvelles manières de les nommer.

Comment MilkOligoThesaurus a été rendu plus FAIR

Plus Interopérable et plus facile à Réutiliser

Afin de rendre son contenu interprétable par les machines et ainsi faciliter sa réutilisation, MilkOligoThesaurus est distribué au format tabulé d’origine ainsi qu’au format RDF en suivant le standard SKOS (Simple Knowledge Organization System) prévu pour représenter des vocabulaires simples dont les thésaurus.

Sur les aspect I et R des principes FAIR, RDF et SKOS permettent respectivement :

  • d’utiliser l’identifiant global unique (ou URI pour Unique Ressource Identifier) de chaque oligosaccharide du lait pour accéder à sa description individuellement et sans ambiguïté ;
  • de normaliser certaines informations représentées comme le nom à utiliser de préférence, la langue des termes ou encore la source des informations collectées.
Colonnes du fichier tabulé
Propriété SKOS
Description
URI
URI du concept
Identifiant unique et global
Normalized_MO_name
Abbreviated_normalized_MO_name
Synonyms
Abbreviated_IUPAC_condensed_form
skos:altLabel@en (séparateur=";")
Liste de termes alternatifs en anglais
CHEBI_ID
Relation d'équivalence dans la base CheBI
InChIKey
skos:notation
Identifiant externe
Normalized_MO_name_source
Sourcing_MO_DOI
Abbreviated_normalized_MO_name_source
dct:source
Sources (articles scientifiques) dont sont issus les informations collectées

Il serait possible de représenter les termes (noms, abréviations, synonymes) de manière plus fidèle au format tabulé en utilisant l’extension SKOS-XL. Ce choix n’a pas été retenu, du moins pour cette version, afin de privilégier la facilité de réutilisation.

Extrait du thésaurus au format RDF-SKOS (sérialisation turtle)

Pour réaliser la conversion du fichier tabulé vers le RDF-SKOS, les autrices du référentiel on utilisé SKOSplay ! Convert. La qualité du fichier obtenu a été vérifiée à l’aide de SKOSplay ! Tester qui permet de tester la conformité au standard SKOS. Ces deux outils sont utilisés et recommandés par le service Vocabulaires Ouverts.

Plus Facile à trouver et Accessible

MilkOligoThesaurus est mis à la disposition de la communauté. Il est peut être librement téléchargé depuis l’entrepôt Recherche Data Gouv dans plusieurs formats. Il est citable via son DOI : https://doi.org/10.57745/RA5DAC. Le thésaurus est aussi présenté sur l’entrepôt de vocabulaires AgroPortal qui offre de nombreux services pour explorer, interroger, télécharger et annoter du texte via une interface homme-machine, des APIs et un SPARQL endpoint

Interface de consultation dans le thésaurus sur AgroPortal

Les apports de VO

Dans le cadre de ce projet, les autrices du thésaurus ont sollicité l’équipe du service Vocabulaires Ouverts INRAE qui a apporté conseils et appui pour :

  • attribuer des URI http://opendata.inrae.fr/holooligo/ dans le nom de domaine INRAE et bénéficier du service de résolution des URIs proposé par la DipSO ;
  • référencer le résultat de leur travail dans l’entrepôt Recherche Data Gouv, le rendre accessible et citable ;
  • exposer le thésaurus à la communauté scientifique sur AgroPortal en apportant un soin particulier aux métadonnées descriptives afin de le rendre plus facile à trouver et à réutiliser ;
  •  publier un data paper dans la revue Data in Brief pour décrire précisément le contenu du thésaurus et le cadre dans lequel il a été produit.
Le data paper publié dans Data in Brief
  • Rumeau, M., Knudsen, C., & Combes, S. (2023). MilkOligoThesaurus: A milk oligosaccharide thesaurus (HoloOLIGO project) [Dataset]. Recherche Data Gouv. https://doi.org/10.57745/RA5DAC
  • Rumeau, M., Fenaille, F., Girard, A., Loux, V., Ba, M., Nédellec, C., Deléger, L., Bossy, R., Aubin, S., Knudsen, C., & Combes, S. (2024). MilkOligoThesaurus, a dataset of mammalian milk oligosaccharide synonyms. Data In Brief, 54, 110404. https://doi.org/10.1016/j.dib.2024.110404
  • SKOS : Système Simple d’Organisation de Connaissances – Référence – Français. (s. d.). https://www.sparna.fr/skos/SKOS-traduction-francais.html 
  • Jonquet, C., Toulet, A., Arnaud, E., Aubin, S., Yeumo, E. D., Emonet, V., Graybeal, J., Laporte, M., Musen, M. A., Pesce, V., & Larmande, P. (2017). AgroPortal : A vocabulary and ontology repository for agronomy. Computers And Electronics In Agriculture, 144, 126‑143. https://doi.org/10.1016/j.compag.2017.10.012
  • Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18
Retour en haut