Les types de vocabulaires et leurs usages
Les vocabulaires sont aussi appelés ressources sémantiques ou encore artefacts sémantiques.
Glossaires, terminologies, thésaurus, taxonomies, ontologies, schémas de métadonnées, vocabulaires contrôlés… Il n’est pas toujours facile de s’y retrouver car leur typologie s’apparente plus à un continuum qu’à des catégories clairement définies. Et les apparences (les noms de vocabulaires) peuvent être trompeuses. Voici quelques clés pour vous y retrouver, à commencer par les usages qui en sont faits.
Usages des vocabulaires
Partager des notions communes
Certains vocabulaires sont plutôt destinés à faciliter la communication entre humains. C’est typiquement le cas des dictionnaires, des terminologies et des glossaires qui présentent des définitions et des termes dans différentes langues. Ils sont utiles par exemple au montage d’un projet pour s’assurer que les partenaires parlent bien des mêmes choses en partageant des définitions au sein du consortium.
Servir de vocabulaire contrôlé
On parle de vocabulaire contrôlé dès lors que l’on utilise, en général au sein d’un système d’information, un ensemble de termes qui fait autorité dans son domaine. Le vocabulaire constitue alors un référentiel qui permet d’harmoniser les valeurs et facilite la recherche documentaire.
Les vocabulaires contrôlés servent par exemple à renseigner les valeurs qualitatives d’un schéma de métadonnées (langue, mots-clés, localisations, etc.). Il devient alors possible de proposer à l’utilisateur des menus déroulants ou des modules d’autocomplétion lors de la saisie ainsi que des facettes lors de la consultation.
Utiliser des vocabulaires contrôlés contribue également à l‘interopérabilité sémantique des systèmes d’information, c’est-à-dire la capacité pour plusieurs systèmes d’échanger des informations entre eux, tout en conservant la signification et la qualité de l’information lors de l’échange.
A plusieurs titres, ils participent donc à la mise en œuvre des principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).
Un vocabulaire contrôlé peut être issu d’une simple liste de termes, une terminologie ou un glossaire, une taxonomie, un thésaurus, une ontologie… Pour cet usage, les vocabulaire les plus intéressants sont ceux qui présentent des termes dans plusieurs langues (interfaces multilingues) ou encore des synonymes et des hiérarchies (amélioration du moteur de recherche).
Annoter du texte
Des vocabulaires sont utilisés pour annoter du texte, c’est-à-dire identifier et normaliser des notions exprimées en langue naturelle dans un document. Il s’agit alors de faire correspondre une chaîne de caractères d’un texte avec une entrée dans un vocabulaire (un concept, une classe). Les textes ainsi annotés peuvent être utilisés pour de la fouille de texte (ou text mining) ou de l’indexation automatique. Les vocabulaires fortement lexicalisés (avec beaucoup de termes) sont généralement les plus adaptés pour cet usage.
Faire fonctionner des systèmes d'aide à la décision
Certains vocabulaires, en modélisant des objets et des processus du réel, permettent de mener des raisonnements logiques pour répondre à une ou plusieurs problématiques. C’est le cas des ontologies qui, implémentées dans un système d’aide à la décision, vont permettre de calculer ou d’induire un comportement ou un résultat en fonction des données d’entrée.
Typologie des vocabulaires
Les différents types de vocabulaires se distinguent d’après :
- les besoins ou questions auxquels ils doivent répondre
- l’unité de connaissances qu’ils représentent : le terme, le concept ou la classe
- le degré de formalisme et de richesse sémantique nécessaires pour répondre à ce besoin
Note : dans d’autres typologies, la taxonomie et le thésaurus peuvent être classés dans l’ordre inverse selon la façon dont est considérée la relation hiérarchique avec ou sans héritage des propriétés.
Définitions et exemples
Représentation formelle d’un domaine de connaissance qui identifie et décrit les types d’entités (appelés classes) de ce domaine, leurs propriétés et leurs relations (est-un, partie-tout et relations spécialisées).
L’ontologie est le modèle. Les données représentées selon ce modèle sont appelées instances. Les deux réunis constituent un graphe de connaissances. Une ontologie peut aussi inclure un ensemble de règles logiques et de contraintes permettant à une machine de produire des raisonnements ou des nouvelles connaissances.
Il existe différents types d’ontologies :
- Ontologie fondationnelle (Upper Level, Top Level, Fundational Ontology) : décrit des concepts très génériques, indépendamment de tout domaine de connaissances. Exemples : Basic Formal Ontology (BFO) ou Suggested Upper Merged Ontology (SUMO).
- Ontologie de base (Core Ontology ou Ontology Design Pattern) : décrit les principaux concepts d’un domaine. Parfois considérée comme un standard, elle est partagée par une large communauté d’acteurs et peut rassembler différents points de vue. Exemples : OBOE et SOSA-SSN pour décrire les observations, PO2 pour décrire des procédés génériques associés à des observations.
- Ontologie de domaine : décrit un domaine de connaissances selon un point de vue particulier. Exemple: l’ontologie de domaine TransformON spécialise l’ontologie de base PO2 pour décrire des procédés de transformation de la biomasse en aliments ou en bioproduits.
- Ontologie de tâche ou d’application : décrit un type de tâche, une activité générique ou une tâche dans un domaine d’application particulier. Exemple : la description d’un procédé particulier en œnologie ou les opérations de viticulture.
La termino-ontologie est une ressource comportant une composante conceptuelle, l’ontologie, et une composante lexicale, la terminologie. On parle aussi parfois d’ontoterminologie. Cette ressource contient non seulement une représentation des concepts du domaine, mais aussi une représentation séparée des termes associés (termes désignant les concepts) qui permettent d’annoter ou indexer des documents dans le cadre d’une annotation sémantique en pouvant gérer le multilinguisme et la synonymie.
Synonymes : ressource termino-ontologique, RTO, ontoterminologie
Termes anglais : termino-ontology, ontoterminology
Ensemble organisé de termes contrôlés et normalisés qui expriment les concepts utiles à la description de contenus propres à un domaine de connaissance.
Les concepts sont représentés par des termes qui sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d’association (terme associé). Un thésaurus permet de gérer le multilinguisme. Il peut également comporter d’autres relations (générique-instance ou partie-tout) et des relations d’alignement. C’est un outil documentaire généralement utilisé pour indexer des contenus à l’aide de mots-clés.
Terme anglais : thesaurus
Ensemble de classes ou catégories organisées selon une hiérarchie de généralisation/spécialisation.
La seule relation existante dans la taxonomie est la relation d’inclusion, aussi dénommée subsumption (« est un »). Par exemple, la notion d’animal subsume celle de mammifère: tout mammifère est forcément un animal.
Une taxonomie sert à classifier, organiser des connaissances.
Les taxonomies ne se limitent pas aux classifications d’organismes vivants et peuvent concerner toutes sortes de notions, par exemple les objectifs d’apprentissage dans la taxonomie de Bloom.
Terme anglais : taxonomy
Ensemble de termes spécialisés relevant d’un même domaine d’activité qui a son vocabulaire propre : terminologie de la médecine, de l’informatique, du sport, de la marine… Chaque notion y est définie avec précision et désignée par un terme, le plus adapté et le plus clair possible. (source FranceTerme)
Les glossaires ou les dictionnaires sont des ressources apparentées. Contrairement aux lexiques, qui ont vocation à décrire l’ensemble des mots d’un domaine, le glossaire vise à décrire des mots difficiles ou mal connus d’un domaine. Le dictionnaire a quant à lui une vocation d’exhaustivité, de référence et de précision pour décrire les mots d’une ou plusieurs langues.
Terme anglais : terminology, glossary, dictionary
La liste d’autorité est une liste normalisée de termes, appelés vedettes-matière en termes de langage documentaire. Les listes d’autorité peuvent permettre d’identifier sans ambiguïté des personnes, des organisation, des noms géographiques, des œuvres…
Il s’agit d’un vocabulaire contrôlé, avec des descripteurs autorisés et non-descripteurs interdits. La liste d’autorité se distingue du thésaurus par sa représentation qui est dans un ordre alphabétique et sans hiérarchie.
Synomymes : notice d’autorité, fichier d’autorité
Terme anglais : authority file
Où les trouver
Nous vous recommandons d’utiliser des vocabulaires publiés dans des entrepôts dédiés qui offrent de nombreuses fonctionnalités pour les découvrir et les réutiliser. C’est aussi là que vous aurez le plus de chances d’obtenir la dernière version d’une ressource. Consultez notre liste d’entrepôts de vocabulaires
- Metadata? Thesauri? Taxonomies? Topic Maps!
- What is a Thesaurus and What is it Good For – Hedden Information Management
- Christophe Roche. Le terme et le concept : fondements d’une ontoterminologie. TOTh 2007 : Terminologie et Ontologie : Théories et Applications, Jun 2007, Annecy, France. pp.1-22. ⟨hal-00202645⟩
INRAE (2024), Les types de vocabulaires et leurs usages, Vocabulaires Ouverts@INRAE, https://istblogs.d-marheine.com/lovinra/types-de-vocabulaires-et-usages
Date de création : 15/12/2022 – Date de révision : 29/11/2024 (V2)
Sophie Aubin, Magalie Weber
Sonia Bravo, Anne-Sophie Bage
