CWRC Ontology Preamble


Résumé

L'Ontologie du Collaboratoire scientifique des écrits du Canada (cwrc.ca) regroupe diverses ressources de webs de données produites par le Collaboratoire relatif aux écrivains, à l'écriture et à la culture.

1. Introduction

Même si elle contient des éléments assez généraux pour des activités comme l'annotation et la citation, l'ontologie du CWRC a pour objectif de décrire et relier certains aspects de la Littérature et de l'histoire littéraire en faisant tout particulièrement attention aux questions de genre et à l'interprétation intersectionelle, du fait de ses liens avec Le Projet Orlando, une histoire littéraire des femmes de lettres britanniques. L'ontologie renvoie à un certain nombre de standards tout en s'efforçant de rendre la complexité de la relation entre représentation et provenance dans la production de webs de données et de transmettre la position culturelle et politique (Haraway, 1988) des connaissances représentées.

Certains des documents associés à cette ontologie sont nés d'activités menées au sein du Collaboratoire. D'autres sont générés par un processus de traduction de balises XML intégrées. En d'autres termes, certains sont issus d'activités humaines telles que la création ou la conservation de contenus, alors que d'autres sont générés par machine.

2. À propos de ce document

Ce document est une version de l'ontologie lisible par l'utilisateur qui ne peut pas documenter toutes ses structures de données. L'ontologie elle-même devrait servir de source principale à la compréhension de son fonctionnement.

Ce document est destiné au public académique qui souhaite comprendre la façon dont l'ontologie traite les problèmes concrets relatifs à l’enregistrement de données et aux professionnels des webs de données qui souhaitent utiliser l'ontologie.

3. Statut de l'ontologie dynamique

Ce document et l'ontologie associée sont développés de façon itérative et des modifications y seront apportées au fil du temps à mesure que les données sont progressivement traduites et que de nouveaux problèmes ontologiques sont identifiés. L'utilisation des annotations d'ontologies OWL pour la compatibilité ontologique ainsi que les classes et propriétés obsolètes assure sa continuité. Les termes supprimés de l'ontologie restent présents mais sont signalés comme tels.

L'ontologie est comprise comme un document évolutif qui ne prétend pas à l’exhaustivité. En particulier, les instances sont dérivées de jeux de données spécifiques et seront développées progressivement. Nous acceptons les suggestions de nouvelles classes, de propriétés et de prédicats de la part des personnes souhaitant utiliser l'ontologie pour leurs propres jeux de données, ainsi que des suggestions sur les termes de vocabulaires complexes déjà existants.

4. Contexte des données source d'Orlando

Créé en 1995, le projet Orlando est une histoire littéraire des femmes de lettres britanniques de leurs origines jusqu'à nos jours (Brown, Clements and Grundy, 2007a;Brown, Clements and Grundy, 2007b). Cette collaboration née-numérique a élaboré une représentation des connaissances (Brown, Clements et al., 2006) sous la forme d'un jeu d’étiquettes SGML conçu sur mesure afin d'encoder le texte avec des priorités et des concepts à mesure qu'il était écrit. Cet ensemble d’étiquettes structure le contenu biocritique, chronologique et bibliographique d'une histoire littéraire contenant plus de huit millions de mots et deux millions d’étiquettes. Le schéma sert de base au Collaboratoire scientifique des écrits du Canada pour des contenus similaires et fournit les fondations de la présente ontologie. La production de certaines des données sources est réalisée par extraction de balises XML incorporées dans les matériaux du Projet Orlando et du contenu de structures similaires présentes au sein du Collaboratoire (Simpson and Brown, 2013).

Orlando: une histoire littéraire des femmes de lettres britanniques des débuts jusqu’à nos jours (Brown and Clements and et al., 2006) est publié par Cambridge University Press:
http://orlando.cambridge.org.

L'introduction académique et l'introduction à l'ensemble des étiquettes d'Orlando sont disponibles ici:
Introduction au jeu d'étiquettes d'Orlando.

La liste des contributeur·ice·s d'Orlando est ici:
Contributeur·ice·s d'Orlando.

Les schémas XML du Projet Orlando et le schéma XML du projet de CSÉC sont disponibles ici
https://github.com/cwrc/CWRC-Schema/tree/master/schemas.

5. Objectifs ontologiques fondamentaux

a. Principes

Le schéma recouvre les entités, les classes et les relations associées aux domaines de la littérature et de l'histoire littéraire, interprétées dans une perspective féministe intersectionnelle. La conception de l'ontologie répond aux défis posés par le passage de données semi-structurées à des données structurées (Smith, 2013). Bien que les triplets de données liées soient autonomes sur la forme, beaucoup sont dérivés de prose discursive et sont mieux compris lorsqu’ils sont rattachés à leur contexte d’origine. L’ontologie du CSÉC est conçue pour éviter de présenter les extractions RDF des données d'Orlando comme des assertions positivistes, mais produit néanmoins des schémas de structures compatibles OWL/RDF lisible par une machine. Elle permet de faire référence à, sans les adopter, d’autres vocabulaires ontologiques externes sans qui restent des sources d’information utiles à la documentation des processus culturelles et identitaires.

b. Questions de compétences

Les questions de compétences servent à donner une idée de la portée d'une ontologie et remplissent plusieurs objectifs, notamment celui de donner aux utilisateur·ice·s un aperçu du type d'information qu'il est possible de trouver dans les jeux de données de l'ontologie, et de fournir aux développeurs des critères pour mesurer la qualité de celle-ci. L'ontologie du CSÉC représente un large éventail d'informations sur la biographie, la vie littéraire et les œuvres de ses auteures. De plus, comme pour d'autres données relatives aux sciences humaines, ces informations offrent un large éventail d'utilisation possibles, dont beaucoup ne peuvent pas être définies à l'avance. Par exemple, les romans de Susanna Moodie au dix-neuvième siècle ont été consultés par des chercheur·euse·s en changement climatique. Cette liste de questions n'est donc pas exhaustive, mais devrait donner un aperçu de l'éventail de questions auxquelles l'ontologie peut répondre. Nous soulignons également que les jeux de données représentés par cette ontologie ne sont pas exhaustifs: l'irrégularité des dossiers publiés et archivés ainsi que les méthodes nécessairement sélectives et hiérarchisées selon lesquelles l'information a été collectée et enregistrée impliquent que toute interprétation statistique ou toute représentation liée au type de données pour lequel cette ontologie est conçue doivent être fortement nuancées et contextualisées.

Questions biographiques

  1. Quelles personnes ont été scolarisées dans telle ville durant une période donnée ?
  2. Quelles auteures britanniques ont fréquenté les mêmes écoles ?
  3. Quel·les auteur·e·s ont été scolarisé·e·s ou ont étudié aux côtés d'une autre femme de lettres ?
  4. Pour qui a-t-on recueilli telle cause de décès précise durant une période donnée ?
  5. Qui faisaient partie de la famille de cette personne ? Quels étaient leurs liens de parenté ?
  6. Quel·le·s auteure·s queer/lesbiennes ont été ont fréquenté un établissement non mixte?

Formation culturelle

  1. Quelles personnes ont été identifiées à telle race, telle couleur de peau ou telle nationalité particulière ?
  2. Quelles femmes de la période victorienne étaient associées à plusieurs nationalités ?
  3. Quel·les auteur·e·s s'associaient à telle forme de judéité de la même façon ?
  4. Quel·les auteur·e·s britanniques étaient à la fois associé·e·s au protestantisme et au catholicisme au dix-neuvième siècle ?
  5. Quels textes littéraires évoquent telle religion ou dénomination religieuse particulière ?
  6. Dans ce jeu de données, quelle est la répartition entre entre les genres féminin et masculin pour les romans publiés durant une période donnée ?
  7. Quel·les auteur·e·s sont associé·e·s à ce groupe politique particulier ?
  8. Associe-t-on davantage les auteur·e·s à des causes relevant des questions de genre à certains moments particuliers de l'Histoire?

Relations personnelles

  1. Un lien existe-t-il entre deux personnes en particulier ?
  2. À quel point ces deux personnes étaient-elles proches ? Est-ce un fait récurrent dans les données, ou est-ce au contraire une occurrence n'apparaissant qu'une ou deux fois ?
  3. Quels sont les types de relations qu’une personne particulière possède avec d’autres individus ?
  4. Quels sont ses liens de parenté ?
  5. Si deux personnes ne possèdent aucun lien direct, quel est le chemin le plus court pour les relier via leurs relations avec d’autres personnes ou d'autres entités comme des organisations ou des textes ?
  6. Quels liens existent-ils entre un ensemble de personnes au cours durant une période donnée ?
  7. Combien de personnes citent tel·le auteur·e particulier·ère en tant que source d’influence sur leur propre travail ?
  8. Combien d'auteur·e·s appartiennent à une organisation particulière ? Plus précisément, quelles organisations féministes ont été soutenues par deux ou plusieurs générations d'auteur·e·s de la même famille?
  9. Qui sont les personnes avec qui cet auteur·e a collaboré professionnellement (relations d’éditeur·ice à écrivain·e, d’auteur·e à d’auteur·e, d’éditeur·ice à d’éditeur·ice, etc) ?
  10. Qui avait un parent dans le milieu de l'édition ?

Groupes/réseaux de personnes

  1. Quels auteur·e·s sont le plus interconnecté·e·s avec d'autres en termes d’influences ?
  2. Pouvons-nous identifier des groupes d'écrivain·e·s qui semblent évoluer en communauté du fait d’un réseau étroit d'amitiés, de relations littéraires, de publications chez les mêmes éditeurs, de révisions des œuvres de chacun·e, etc ?
  3. Pouvons-nous identifier les individus qui étaient des points de liaison clés entre différents groupes ?
  4. Qui a été influencé·e par des écrivain·e·s de couleur britanniques et/ou internationaux?
  5. Qui était impliqué·e à la fois dans des groupes féministes et dans l'activisme pour le droit des animaux?
  6. Qui était en relation avec des groupes artistiques non littéraires ?

Questions sur les textes/les œuvres

  1. Quels livres on été importants dans l'éducation de cet·te auteur·e ?
  2. Quelles sont les critiques sur ce livre en particulier ?
  3. Dans quelles langues cette œuvre spécifique a-t-elle été publiée ?
  4. Y a-t-il une relation intertextuelle reconnue entre X et Y ?
  5. Dans quelles revues apparaît le travail d'un·e auteur spécifique ?
  6. Combien de relations intertextuelles un·e auteur·e possède-t-il·elle avec des œuvres littéraires écrites par des femmes ?
  7. Trouvez toutes les réponses à ce livre qui sont considérées comme genrées.
  8. Quelles œuvres ont été le plus traduites ?
  9. Trouvez des thèmes et des sujets particuliers dans des textes, par exemple quelles sont les œuvres de fiction contenant des descriptions d’écoles de filles ? Quels sont celles qui dépeignent des organisations politiques ?
  10. Quel·les auteur·e·s ont écrit pour la même revue à la même période ?
  11. Quelles œuvres de fiction font allusion à une forme d'activisme particulière ?
  12. Y a-t-il des références à des œuvres de fiction dans le travail non-fictionnel de cet·te auteur·e ?
  13. Quelles œuvres de fiction européennes se déroulent en dehors d’Europe?
  14. Qui a détruit ses propres œuvres ? Quelles œuvres ont été détruites par d’autres ?
  15. Quelles écrits semblent avoir été influencés par certaines théories ou philosophies ?

Questions géographiques

  1. Quels textes ont été ou n'ont pas été publiés dans tel pays particulier ?
  2. Quels textes ont fait ou n'ont pas fait l’objet de critiques dans tel pays particulier?
  3. Dans quelles villes ou pays un·e auteur·e particulier·ère a-t-il·elle résidé ?
  4. Quelles villes ou pays sont décrits ou traités chez cet·te auteur·e ?
  5. Dans quels lieux une œuvre dramatique particulière a-t-elle été jouée ?
  6. Quelles œuvres ont été écrites au cours de voyages ?
  7. Quels textes ont été publiés ou partagés en dehors d’Europe? Quels textes ont été commentés hors d'Europe?
>

Questions liées au temps et aux évènements

  1. Dans ce jeu de données, de quels textes parle-t-on le plus durant cette période particulière ?
  2. Retracez la portée d'un texte particulier dans le temps et l'espace.
  3. Quelle hausse ou quel déclin relatif la réputation d'un·e écrivain·e a-t-elle connu(e) au fil du temps par rapport à d’autres écrivain·e·s de sa période?
  4. Quels événements de la vie de cette personne on été liés à des aspects de son identité sociale telles que la religion, la classe sociale ou l'appartenance politique ?
  5. Quelle évolution au cours du temps les données montrent-elles pour différentes formes de relations entre plusieurs écrivain·e·s ? Par exemple, ce jeu de données enregistre-t-il relativement plus d'intertextualité avec des hommes écrivains ou bien des femmes écrivaines à des moments distincts ?
  6. Quels évolutions et évènements sociaux ou historiques majeurs sont reflétés dans les archives littéraires ?
  7. Pouvons-nous cibler l'exploration des données sur des périodes temporelles particulières, telle que la période victorienne ?
  8. Quel·les auteur·e·s sont susceptibles de se connaître, en raison de chevauchements chronologiques et/ou géographiques, ou du fait d'autres points en commun ?

Questions complexes

Dans de nombreux cas, l'ontologie aura un rôle à jouer dans le développement d'une question plus complexe ou dans le cadre d'une démarche herméneutique plus large. Par exemple:

  1. Comparez les tendances de publication de ces auteur·e·s, en fonction de leur genre et du nombre de leurs enfants. Leur taux de productivité littéraire augmente-t-il ou diminue-t-il au fil du temps en fonction du nombre d'enfants qu'ils·elles ont ?
  2. Montrez tous les éléments de l’apprentissage en autodidacte et de l’éducation formelle (livres, disciplines, instructeur·ice·s) mentionnés dans les œuvres d'une auteure.
  3. Retracez l'influence d’un phénomène littéraire, tels que l'émergence d'un thème particulier ou d'une caractéristique formelle, sur une évolution sociale plus large.
  4. Testez les affirmations sur la montée des genres ou des mouvements littéraires et voyez à quoi elles ressemblent lorsqu'elles sont infléchies par un jeu de données axé sur l'écriture féminine.

c. Outils et fonctionnalités prévus

Les types d'outils et de fonctionnalités que l’ontologie est destinée à soutenir sont également pertinents pour sa structure. L’ontologie prévoit:

  1. Les recherches avec requêtes SPARQL;
  2. La navigation, avec la navigation à facettes en fonction de divers critères basés sur l'ontologie, dont les périodes temporelles, les emplacements géographiques ou les propriétés des auteur·e·s;
  3. Des liens vers nos instances à l'aide de leurs URI;
  4. La découverte d'informations pertinentes sur les instances via des pages Web déréférenciables;
  5. La découverte de documents Web qui référencent des instances ou d'autres composants de l'ontologie;
  6. La visualisation graphique de la structure de l'ontologie, incluant les propriétés et les relations qu'elle contient;
  7. La visualisation du réseau de relations entre les sujets et d’autres personnes, ainsi que des graphiques d’influences et de relations montrant les liens entre les personnes et d'autres entités comm les livres, capables d’indiquer la directionalité des relations le cas échéant.
  8. La cartographie des composants de données associées à des indications géospatiales;
  9. Des chronologies des composants de données associées à des indications temporelles;
  10. L’utilisation des règles SHACL et d'autres outils d'inférence logique pour vérifier les erreurs de données, les omissions et les incohérences;
  11. L’utilisation des règles SHACL et d'autres outils d'inférence pour dériver de nouvelles informations à partir de la combinaison de données existantes et des ontologies;
  12. L’affichage de l’irrégularité des jeux de données par le suivi des sources, de la provenance et des degrés de certitude afin de fournir un aperçu des lacunes du corpus de connaissances;
  13. L’affichage des conflits, des contradictions et des anomalies dans les jeux de données pour servir de base à la recherche.

d. Liens vers d'autres ontologies

Nous employons plusieurs stratégies afin de nous relier à d'autres ontologies. Notre architecture n’importe pas intégralement d'ontologies tierces, mais renvoie à d'autres vocabulaires larges de façon précise. Nous nous efforçons de ne pas abuser du prédicat sameAs (Halpin, Hayes et al., 2010). Nous adoptons des espaces de noms, des classes et des termes associés dans la mesure du possible lorsqu'ils sont couramment employés et que leurs vocabulaires sont majoritairement compatibles avec le nôtre, comme c'est le cas du FOAF et du BIBO . Pour certains termes, tels que les dénominations religieuses ou les genres littéraires, nous nous appuyons volontiers, en partie ou en totalité, sur les termes et définitions d'autres vocabulaires comme dans le cas du Getty Art and Architecture Thesaurus (Getty Research Institute). D'autres termes sont référencés avec du recul critique. Ceci s’applique plus particulièrement au vocabulaire en lien avec la classe Forme Culturelle (voir ci-dessous), qui est avant tout considérée comme représentative et au sein de laquelle les termes d’identité sont entrés comme étiquettes rattachées à des instances internes plus précises, signalant l'intersection dudit terme avec un ou plusieurs types de catégorisation identitaire. Celles-ci sont à leur tour rattachées à des ontologies externes en tant que sous-classes, <rdfs:subClassOf> (or <owl:equivalentClass>, <skos:narrower>, <skos:broader>, etc...) pour indiquer qu'en dépit de leur proximité ces termes et leurs définitions ne ne sont pas comparables à ceux utilisés par le vocabulaire du CSÉC. Au moyen de cette structure, notre vocabulaire positionne tous les termes associés aux processus de Forme culturelle comme des "étiquettes", conservant ainsi au sein de la prose la complexité des termes relatifs à la complexe construction sociale des identités.

La récupération de vocabulaires a présenté certains défis au CSÉC puisque les vocabulaires utilisés dans le balisage à l'origine du RDF peuvent être employés de façon ambigüe, à un tel point que leur réutilisation devient difficile.

Les termes relatifs à la religion sont des exemples typiques de ces ambiguïtés, car il est difficile de déterminer si un terme représente effectivement une religion comme système de croyances, une adhésion formelle à l’organisation religieuse associée, des comportements sociaux souvent laïques oules affiliations en lien avec la religion, ou quelque autre combinaison des exemples ci-dessus.

Au niveau supérieur, l'ontologie du CSÉC utilise des ontologies bien connues:

  1. L'ontologie FOAF pour la représentation des personnes et des organisations.
  2. L'ontologie BIBO pour la représentation des données bibliographiques.
  3. L'ontologie TIME pour la représentation des événements et des moments données pour lesquels les schémas de temps ISO8601 / XML ne sont pas appropriés.
  4. L'ontologie NIF-CORE est utilisée pour contenir et manipuler le texte des entrées originelles d'Orlando.
  5. Le modèle de données Web Open Annotation est utilisé pour lier le texte source d’Orlando à des Contextes spécifiques.
  6. Le vocabulaire SKOS est utilisé pour représenter les relations taxonomiques entre certaines Formes Culturelles et des termes de l'ontologie complète.
  7. Certains termes du vocabulaire Dublin Core sont utilisés pour des étiquettes de documentation reconnues telles que < dc:title >.
  8. L'ontologie W3C Provenance est utilisé pour indiquer l'origine, la dérivation ou la provenance des termes descriptifs ainsi que les annotations sources des Contextes Culturels.
  9. Des liens sont faits avec l'ontologie CRM-CIDOC pour les instances culturelles en commun avec le CSÉC.

Certains vocabulaires reconnus comme EuroVoc, les vocabulaires Getty ou ceux de la Librairie du Congrès pour les langues et les GeoNames sont utilisés dans les définitions de nombreuses classes et instances. Par exemple, les termes religieux du vocabulaire Getty Art and Architecture Thesaurus ont fourni des définitions adéquates pour beaucoup de religions, aussi bien que DBPedia et d’autres sources érudites. Des guillemets ponctuent le texte des définitions dont le texte descriptif est repris dans son intégralité. Les termes qui apparaissent entre guillemets sont définis par l'équipe du CSÉC mais peuvent contenir des liens vers des ressources externes telles que des articles académiques ou des entrées DBpedia étroitement liées.

e. Provenance et contextes

Comme indiqué plus haut, certaines données associées à cette ontologie ont été générées à partir de structures XML ( Simpson et Brown, 2013 ). La provenance est donc particulièrement importante car que les données n'ont pas été originairement produites en RDF, mais sous la forme de balises intégrées dans un contexte discursif. Dans de tels cas, les parties pertinentes du texte sont fournies sous forme d'extratis et deviennent au sein du jeu de données des instances de notes contextuelles ou des annotations lisibles par l’utilisateur et auxquelles les noeuds du jeu de données sont directement liées.

Il était prévu que l’importation massive de vocabulaires complets au sein de l'ontologie du CSÉC causât des problèmes logiques et ontologiques. Pour y remédier, nous avons décidé de ne pas utiliser la structure <owl:import>, mais au lieu de cela associer des vocabulaires externes ou de cloner les groupes de termes spécifiques d’autres vocabulaires présélectionnés. De même, tous les vocabulaires ne sont pas clairement définis d’un point de vue ontologique, mais il s'est avéré utile de s’inspirer de leur prose ou de certaines de leurs propriétés. Pour ce faire, nous avons évité l'utilisation de <owl:sameAs> pour ne pas inclure des propriétés ou des structures ontologiques non voulues au sein du CSÉC. Dans d'autres cas, la propriété ontologique <prov:derivedFrom> est utilisée pour indiquer qu’un terme est construit d’après les informations d’autres termes sans forcément leur être équivalent. Les liens directs vers d'autres ontologies sont généralement effectués par l'utilisation de sous-classes ou de <owl:equivalentClass>.

f. Étiquettes et valeurs

Comme indiqué plus haut, les étiquettes ne sont pas seulement utilisées pour indiquer que certains termes sont associés à un autre élément de l'ontologie, mais aussi pour signaler leur caractère représentatif et discursif lorsqu’ils servent à saisir une classe.

g. Diversité culturelle

La diversité culturelle suscite de plus en plus de débats dans champs des humanités numériques et d’autres disciplines. La collection Debates in Digital Humanities (Gold, 2012; Gold and Klein, 2016) rassemble de nombreux articles qui reflètent l’importance croissante des questions de race, de genre, de diversité culturelle et de différence, et n’est qu’un indicateur parmi d’autres de la préoccupation actuelle pour la diversité. L’ontologie ci-présente cherche à représenter une vision intersectionnelle des catégories identitaires, telles qu’elles sont instanciées les schémas de biographie XML du projet Orlando.

La section Formation Culturelle de l'ontologie reconnaît le processus de catégorisation comme inhérent à l’expérience sociale, tout en nuançant sa terminologie et en contextualisant ses catégories identitaires. Cette section entend la classification sociale comme un produit culturel et un point d’intersection où les discours se superposent et se recoupent. Nous utilisons les catégories comme points de départ pour l’analyse des dynamiques culturelles plutôt que comme des taxonomies figées, car de telles catégories n’ont jamais été stables ni incompatibles entre elles. (Algee-Hewitt, Porter, and Walser, 2016).Pour une explication plus en détails de la notion de formation culturelle, voir Brown et al 2017.

6. Les structures ontologiques du CSÉC

Les données sources du CSÉC recouvrent plusieurs types de données: annotations de textes sources, métadonnées, documents granulaires comme les bibliographies, ainsi que du contenu discursif et explicatif sur des éléments biographiques précis et les phénomènes littéraires. Le web de données du CSÉC représente ces informations comme une série d’assertions la plupart du temps rattachées à des contextes spécifiques.

Même si la traçabilité complète et intégrée a toujours été un besoin essentiel aux expérimentations répétables, elle devient un obstacle dans le cadre du web de données car les requêtes nécessaires à la récupération d’informations primaires devient complexe. Dans cet objectif, l'ontologie du CSÉC possède deux façons différentes d’enregistrer les données: d’une part par une série de Contextes qui relient les informations à leur texte source dans Orlando ou d'autres documents, et d’autre part par un ensemble de propriétés granulaires qui relient directement les individus à leurs attributs personnels. De cette façon, l’extraction rapide et le suivi détaillé de la provenance des données sont assurés.

Pour y parvenir, deux structures principales sont utilisées dans l'ontologie: les Contextes et les Formes Culturelles . La formation culturelle représente les éléments constitutifs des expériences sociales subjectives et/ou la classification des individus dans diverses catégories telles que la race, le genre, la langue, la sexualité ou la religion. Les contextes sont utilisés pour relier les extraits de la prose d'Orlando à l'individu auxquels il réfèrent ainsi qu’à la formation culturelle spécifique assignée à cette personne. En outre, les propriétés sont séparées en deux catégories: déclarées et autodéclarées, ce qui permet de nuancer les déclarations personnelles de chacun·e.

a. Contextes

La classe Contexte fournit le contexte discursif des assertions de l'ontologie. Lorsque les assertions sont générées à partir de textes sources accessibles sur le Web, le Contexte fournit le texte entier ou un extrait important du texte dont elles proviennent. Les Contextes permettent de rattacher les données à leurs documents sources, encourageant les utilisateur·ice·s à percevoir la nuance et la complexité des assertions faites sur les sujets humains et les phénomènes culturels.

Les contextes sont classés par catégories sémantiques majeures qui incluent pour la documentation biographique FormationCulturelle, Naissance, Mort, Éducation, Occupation et Politique, et pour le contenu littéraire Production, Réception et Éléments textuels. Les liens DC subjects relient ces contextes à des concepts associés dans l'ontologie et sont également liés par ontologie de provenance lorsque possible au texte intégral dont ils proviennent. Les triplets sont liés à leurs contextes respectifs à l'aide du système d'annotation de données Web.

b. Personnes, personae et rôles

La distinction entre personnes, personae et rôles est un élément révélateur de la complexité des expériences et des relations humaines.

Cette ontologie adopte la définition FOAF au sens large de foaf:person qui peut être appliquée à toute entité considérée comme une personne, y compris les non-humains. Nous distinguons deux sous-classes de Personnes: personne physique ou être humain, et personne fictive car les personnages fictifs sont importants dans les études littéraires. Si un personnage historique qui est une PersonnePhysique est romancé et devient le #Personnage d’un texte de fiction, il·elle devient aussi une PersonneFictive. Toutefois, si un texte fait simplement allusion ou se réfère à une PersonnePhysique, il·elle ne devient pas aussi une PersonneFictive.

Dans certains cas, une Personne sera associée à un Persona.

L'auteur Michael Field illustre l’idée que “l’identité individuelle est une notion importante et complexe que des ontologies conçues de façon adaptée doivent être capables de refléter” (Brown et Simpson 2013). Le persona Michael Field est né de la collaboration artistique et personnelle entre Katherine Harris Bradley et Edith Emma Cooper à la fin du XXème siècle. Même s'il n'était pas une personne physique, Michael Field a joué un rôle important dans la carrière, la vie sociale et les relations personnelles des deux femmes. "Michael Field" ne peut être attribué à une des deux auteures plutôt qu’à une autre, ni être considéré comme un pseudonyme commun. Michael Field est associé à deux personnes physiques à la fois. L’ontologie du CSÉC cherche à saisir des manifestations de l'originalité et de la pluralité des identités. Elle comprend ainsi la classe de personne "persona" pour décrire des entités telles que Michael Field.

On pourrait faire valoir que les personae sont de simples noms de plume ou de scène, tels que "Currer Bell" pour Charlotte Brontë. Cependant, les personae sont plus que des faux noms. Ils·elles influent sur la façon dont les artistes incarnent socialement, symboliquement, intimement ou artistiquement le statut d’auteur·e. Alors que le nom de plume peut être considéré comme une stratégie de publication dans un contexte spécifique, un persona possède une existence propre allant au-delà de sa signature. Un exemple actual est le collectif d'art FASTWÜRMS . Le collectif fonctionne est plus qu’une identité créatrice et n’occupe qu’un seul et unique poste universitaire à l'Université de Guelph.

Un persona est une création originale, souvent inspiré par le contexte biographique, historique et sociologique de son/ses créateur·ice(s). Les personae tels qu'ils sont définis ici ne doivent pas être confondus avec une maladie mentale ou à un trouble dissociatif de l'identité, car ils ne relèvent pas d'une perception déformée ou incontrôlée de la réalité. Le persona est avant tout une entité identitaire capable d'interargir avec le monde extérieur et qui peut parfois être confondue avec une personne physique réelle. Il est incarné et développé par une personne physique, et peut avoir une activité sociale, littéraire, artistique ou politique. Bien que les Personae soient des personnes FOAF, ils sont distincts des personnes fictives et des personnes physiques du CSÉC qui les incarnent, à moins qu'ils ne deviennent objets de fiction.

Tel qu’indiqué dans l’étiquette Persona récemment incorporée au sein du Text Encoding Initiative, les personae ne sont pas non plus des #Role s: "Un rôle peut être assumé par différentes personnes lors de diverses occasions, alors qu'un persona est unique à une personne en particulier, même s’il peut ressembler à d'autres individus. De même, lorsqu'un·e acteur·ice assume ou joue le rôle d'une personne historique, il·elle n'acquiert pas de nouveau persona. "( http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ND.html#NDPERSE).

Un rôle peut être endossé par des personae ou des personnes physiques, mais un persona ne peut être adopté par quiconque: il est spécifique à une personne physique, ou plus rarement à plusieurs personnes physiques (comme c’est le cas de Field ou du collectif artistique FASTWÜRMS ).

Les rôles sont des personnages ou des fonctions assumées lors d’occasions et de situations spécifiques, c'est-à-dire des événements. Les rôles dramatiques, c'est-à-dire les #Personnages d’une œuvre de fiction, sont adoptés par des acteur·ice·s lors de performances particulières. Par analogie, les rôles sociaux sont adoptés par des individus singuliers lors d’occasions ou d’évènements particuliers, qu’ils soient de longue ou de courte durée. Au cours des événements, les agents, les spectateurs et les commentateurs jouent des rôles clés. Les occupations, les professions ou les activités ne sont pas des rôles, bien qu'elles puissent leur être liées, de même que les liens familiaux ou sociaux. Les rôles seront davantage étoffés par rapport à la composante événement de l'ontologie, qui est actuellement en cours de développement.

c. Forme Culturelle

Les classes Forme Culturelle reconnaissent la catégorisation comme intrinsèque à l'expérience sociale, tout en intégrant des variations terminologiques et contextuelles sur les catégories identitaires à travers des instances employées à différents niveaux discursifs.

Les sous-classes et les instances de Forme Culturelle décrivent les subjectivités et les identités sociales grâce aux Contextes et aux propriétés granulaires. Cette structure est dérivée du système d’encodage originel d’Orlando, Cultural Form, qui incite les utilisateur·ice·s à soulever et débattre des questions complexes au lieu d’accepter les catégories comme des concepts figés.

Le défi principal du passage de balises sémantiques intégrées au web de données était de rendre cette approche compatible avec le lien vers d'autres ontologies et des jeux de données externes au cadre de référence d'Orlando. Le mouvement "chaînes de texte vers des liens" ou "chaînes vers des choses" contredisait en quelque sorte l’ancienne 'ambiguïté présente dans des chaînes de caractères comme “blanc”, “noir”, “anglais”, et ainsi de suite: “blanc” et “noir” peuvent représenter la race ou l’origine ethnique, et on peut aussi bien utiliser “anglais” pour désigner un individu, une nationalité ou un héritage national. Orlando annote ces chaînes de textes avec son ensemble d’étiquettes Formes Culturelles, par exemple spécifiques au contexte racial ou ethnique, requérant un lien avec l’instance spécifique de Forme Culturelle associée dans le web de données. Ainsi, il existent des instances de Forme Culturelle qui renvoient à l’entité discursive blanc en tant que race et d’autres qui renvoient à blanc en tant qu’ethnie. Enfin, il existe également une étiquette blanc qui peut être instancié aussi bien comme race que comme ethnie, à condition que ce ne soit pas au sein de la même assertion (même si des affirmations multiples sont possibles).

Ce point constitue un écart par rapport aux anciens vocabulaires contrôlés (en données ouvertes non liées), car l'apparence du terme ou de l'étiquette (“blanc” dans ce cas) n'indique pas la formation culturelle spécifique évoquée, mais c’est son instance spécifique qui le fait. Cela signifie également que des liens vers d'autres jeux de données ou d’autres vocabulaires peuvent être réalisés de manière adéquate, puisque des représentations multiples de la même étiquette sont présentes dans l'ontologie du CSÉC. En dernier recours ou dans le cas d’exploration de données, le terme existe aussi comme concept sans Forme Culturelle rattachée à une des différentes options proposées par le CSÉC. Cela permet de lier vers une ontologie externe, tel que cela peut être nécessaire lors de l’exploration de données, sans adopter la définition ou l'interprétation associée du terme.

i. Propriétés granulaires

Les propriétés granulaires constituent un moyen simple d’indiquer des catégories culturelles telles qu’elles sont perçues, assignées à une personne selon des conventions culturelles, ou autodéclarées par les personnes elles-mêmes. Certaines propriétés sont des associations héritées par des générations précédentes.

d. Taxonomies intégrées

i. Religion

Les données originales d'Orlando posent des difficultés pour recenser les religions car ses contextes originaux ne faisaient pas la différence entre croyance religieuse, appartenance à une organisation religieuse et absence de toute croyance combinée à l'observance de valeurs ou de pratiques.

Nous utilisons une taxonomie pour l’énumération de catégories associées à cet éventail de termes. La taxonomie en elle-même s’appuie sur le schéma SKOS et représente un mélange en désordre de croyances partagées et de ramifications historiques.

La taxonomie tente de tracer de façon subjective la lignée théologique et/ou historique du système de croyance. Comme l'application d’étiquettes à un individu, il s'agit d'une démarche d'interprétation.

ii. Appartenance politique

Les catégories d'appartenance politique couvrent un large éventail de partis politiques, de mouvements plus ou moins organisés et de causes diverses. Les instances ci-présentes mettent l’accent sur des du contexte politique Britannique qui sont d’intérêt historique pour les femmes, en soulignant que les mouvements tels que le féminisme sont controversés et diffèrent en fonction du contexte géographique et historique. Certaines appartenances sont reliées via des relations SKOS, mais il existe d'autres courants croisant différents groupes qui ne peuvent être inclus ni dans ces relations ni dans les données contextualisées. Comme pour les autres composants de cette ontologie, étant dérivé du jeu de données d'Orlando ce vocabulaire ne prétend pas à l'exhaustivité et pourra être complété si nécessaire.

iii. Genre littéraire

L'ontologie des genres littéraires contient une taxonomie de genres qui s’appuie sur l’approche SKOS . Elle propose des définitions transitives vers des termes plus précis ou plus larges qui peuvent être utilisées pour rechercher des œuvres particulières à l'aide de la taxonomie. L'arbre taxonomique est construit sur une norme de pertinence basée sur des sujets spécifiques, destinée à la récupération de documents et non applicable à tous les usages. Une des spécificités de cette ontologie est l'utilisation d’adjectifs tels que 'philosophique' ou 'détective' pour désigner des types de texte particuliers. De tels termes peuvent être utilisés conjointement avec des genres littéraires qui se rapportent plus à la forme, tels que 'poème' ou 'roman', de manière à désigner, par exemple, un 'roman féministe'.

e. Notes sur les ChangeSets

Les ChangeSets existent pour garder trace des modifications apportées aux instances, aux termes et aux classes de l'ontologie. Ils sont donc utilisés par les auteur·e·s de l'ontologie ainsi que par les utilisateur·ice·s qui effectuent des ajouts ou des modifications. Les ChangeSets sont des instances reliées vers ou à partir d'une structure de l'ontologie. Le lien est réalisé via les propriétés d'objet entité modifiée ou via skos:changeNote . Une seule modification ChangeSet peut s'appliquer à plusieurs entités. Par conséquent, la relation cwrc:affectedEntity peut être appliquée 0 fois ou plus. Les ChangeSets répère également l'utilisateur·ice via la relation cwrc:alteredBy qui peut être liée à une cwrc:NaturalPerson. De plus, les dates et les heures sont conservées par le time:inXSDDateTimeStamp et l’utilisation de xsd:dateStamps pour repérer le moment où l’ontologie a été modifiée. Cela permettra d’utiliser les ChangeSets comme des versions et de repérer les changements majeurs effectués à une date précise. Grâce à la provenance, les ChangeSets peuvent être reliés à des ressources externes, ce qui permet de poursuivre toute discussion sortant du cadre de l’ontologie. De brèves discussions peuvent être incluses via la relation skos:changeNote ainsi que par le titre standard rdfs:label . Les ChangeSets doivent être utilisés chaque fois qu'un problème est résolu par des développeur·euse·s d'ontologies ou qu'une instance est modifiée par un·e utilisateur·ice. Des mécanismes automatisés seront utilisés pour compenser certaines des démarches nécessaires.

Figure 3 - Exemple de Change Set utilisant à la fois des descriptions internes et externes

7. Règles de conception de l'ontologie de l’ontologie du CSÉC

Au-delà du formalisme du OWL 2 Web Ontology Language, l'ontologie du CSÉC suit les principes de design et les styles suivants:

  • Pour le contenu des rdfs: les étiquettes sont toujours en minuscules, aux exceptions près:
    • Les étiquettes de religions, d’appartenances politiques et de groupes de personnes dérivées de noms propres prendront une majuscule.
  • Dans la mesure du possible, l'équivalent de l’étiquette XML originale d’Orlando est contenue dans la variable <rdf:value> de n'importe quel terme de l'ontologie.
  • Chaque fois que vous faites référence à une zone géographique, utilisez l'élément le plus précis de la base de données.
  • Les définitions en Français et Anglais (ainsi que certaines définitions en d'autres langues) ne sont pas des traductions mot à mot et sont des définitions à part entière.

8. Notes sur les langages SKOS et OWL

Le SKOS (Simple Knowledge Organization System) jouit d'une grande popularité au sein de la communauté du web sémantique, car il fournit des termes simples pour les taxonomies sans exiger la présence d’un agent raisonneur. Chaque fois que cela s'avère approprié, les termes SKOS sont insérés dans cette ontologie pour relier les termes entre eux. Cependant, étant donné que ces termes ne sont pas ontologiquement renseignés, leur capacité d’évolution est limitée car chaque couche de termes supplémentaire dans une taxonomie nécessite une autre requête auprès de la base de données.

Certaines des constructions de l'ontologie du CSÉC sont complexes et requièrent un raisonnement. OWL est le moyen privilégié pour utiliser cette ontologie, bien que l'utilisation des termes, dans le style de ceux de SKOS, soit possible.

10. Conclusion et travail futur

Ce brouillon d’ontologie est un travail en cours. Il continuera d’être développé, étendu et révisé à mesure que nous découvrons ce qu’implique la structure de l’ontologie à travers l’extraction et l'exploration de nos données, puisque de nouvelles informations et divers cas d’utilisation nécessitent un travail d’élargissement ou de précision, et que nous identifions de nouveaux besoins, de nouvelles interprétations et de nouveaux débats.

11. Historique des versions

  • 0.99 - Version publique initiale.
  • 0.99.2 - Publication périodique avec mise à jour des logos, des genres, de la documentation et des données d'auteur·e·s adéquates.
  • 0.99.6 - Publication périodique avec mise à jour du style, des questions de compétences et documentation concernant les événements et les ChangeSets

12. Bibliographie