ProsoSem - PEPS - HuMaIn

Exposé scientifique

Il existe de nombreuses bases de données historiques dont les informations se recoupent et sont cumulatives, alors même le format de ces bases interdit de les exploiter simultanément. Le Lamop (Laboratoire de médiévistique Occidental de Paris) possède un gisement de données prosoprographiques centré sur le royaume de France entre le XIIIe et le XVe siècle.

Il s’agit d’un ensemble de trois bases de données.

La première est un répertoire prosopographique portant sur l’entourage du roi de France (6472 individus), la seconde enregistre tous les universitaires qui ont eu une inscription sur le registre de l’Université de Paris entre le XIIIe et le XVe siècle(3000 individus), la dernière est centrée sur le personnel ecclésiastique (4732 individus). La plus importante quantitativement est intégrée dans un projet ERC (SAS Signs and stats) qui s’occupe d’obtenir un fonds de données le mieux renseigné possible et le plus exhaustif. La dernière base de données repose sur un des aspects du travail de thèse de Jean-Philippe Genet, les auteurs anglais au moyen âge, à la fois dans leur formation et leur production écrite. Il s’agit donc de trois facettes de la société médiévales, liées à la construction de l’état moderne qui sont chronologiquement séquentes. On sait qu’il existe des individus communs à l’ensemble de ces ressources, mais ils n’ont jamais été mis en rapport pour l’instant. En effet, bien que produites par le même laboratoire, ces bases ont été construites indépendamment et avec des technologies différentes (SQL, XML), leurs schémas sont extrêmement différents. Ensuite, si tous les chercheurs peuvent souhaiter extraire des informations, la volonté des chercheurs de participer à l’édification d’un outil est encore récente. Il faut donc essayer de travailler sur deux niveaux, le premier concerne les incohérences dans chacune des bases de données (doublons, informations incohérentes sur le plan historique par exemple un individu ayant des durées de vie exceptionnels, des personnages dont on ne sait rien ou qui n’ont pas de réalité historique avérée), puis évidemment le niveau de l’interopérabilité des bases entre elles. Chacune de ces bases de données apportant des informations complémentaires, toutefois il est possible de proposer quelques regroupements, la nature complexe de l’onomastique médiévale imposant de travailler sur les modalités d’identification des individus, ainsi que sur la distinction des degrés de fiabilité des résultats (ex : « ces deux individus sont presque certainement … identiques »). C’est pourquoi l’interopérabilité de ces bases de données n’est possible que si l’on fait intervenir des experts susceptibles de valider, commenter, l’information, et de formaliser des règles. La possibilité de mettre en relation ces informations présente un intérêt scientifique qui peut se développer autour de quatre points :

  1. Comprendre les processus scientifiques engagés par les historiens pour la mise en relation des fiches de chaque base de données ? Quels sont leurs cheminements intellectuels ? Leurs démarches ? Faire cela aujourd’hui permettrait d’éviter de perdre l’information documentant ces bases de données en utilisant la connaissance des chercheurs encore investis sur le projet.
  2. Explorer l’intérêt de cette interopérabilité, en générant de nouveaux rapports entre les données. Il semble possible de pouvoir renforcer la documentation des individus dans la mesure où chaque base de données continent des informations complémentaires. L’hypothèse proposée aujourd’hui va dans le sens d’une augmentation de la documentation.
  3. Autoriser le « moissonnage », par Isidore par exemple, d’une information plus riche et scientifiquement documentée.
  4. Développer d’un outil suffisamment souple et adapté pour permettre l’intégration sous contrôle scientifique d’autres gisements de données.

L’étiquetage de l’information est aujourd’hui un outil d’appropriation de données constituées efficace. Et elles sont aujourd’hui nombreuses en SHS. C’est pourquoi travailler sur un tel moyen pour les chercheurs (fouille de données, codage, catégorisation) constitue une ambition d’un grand intérêt scientifique. Il n’est pas de l’objet de cette demande de financement de résoudre ce problème, mais d’en envisager les conditions de possibilités ; Le domaine de recherche originel de l'équipe du laboratoire Le2i UMR CNRS 6306 est l’interopérabilité sémantique de systèmes d’information hétérogènes. Depuis quelques années, avec le développement exponentiel de l’usage du Web et des réseaux sociaux, un nouveau système d’information hétérogène est devenu très actif : l’Utilisateur. Comment intégrer l’utilisateur pour qu’il migre d’une situation de consommation passive à l’état actif, organisant et qualifiant les informations qui lui sont envoyées. L’équipe de projet transversal Checksem a pour objectif de développer des systèmes de gestion de connaissances basées sur la sémantique et les règles métiers. Les travaux de l’équipe permettent de créer de nouveaux outils de recommandation de connaissances (recommandation d’articles de presse économiques ou recommandation d’une combinaison d’offres touristiques en environnement mobile) ou d’analyse et de simulation de systèmes complexes (par exemple la gestion de flux d’agents mobiles dans des environnements 3D informés ou la gestion sémantique d’un réseau de capteurs).

La modélisation du savoir d’un domaine de métier permet d’une part de gérer l’information non pas par rapport à son traitement, mais par rapport à son sens, ce qui offre une modélisation déconnectée de son utilisation pour un usage plus flexible. D’autre part, la modélisation du savoir-faire d’un domaine de métier donne la possibilité à un processus d’apprécier dynamiquement les actions à mener pour une tâche, car ce processus possède une définition sémantique des données à manipuler et les actions qu’il est possible de réaliser sur ces mêmes données. Ces informations ont une qualité, une structure, un format, une interprétation qui dépend du contexte métier. Ainsi, une définition formelle des connaissances contenues dans ces données offre une base de connaissances exploitable par les processus opérationnels. Une ontologie formelle, au sens du Web sémantique et basée sur les logiques descriptives, permet de réaliser les deux types de tâches suivantes, l’indexation et l’annotation des informations. Concernant l’indexation des documents, la taxonomie d’une ontologie forme une hiérarchie de mots clés constituant un ensemble pertinent de critères de recherche. De plus, ces mêmes mots clés autorisent l’annotation des informations permettant ainsi de donner une sémantique aux données annotées. De cette manière, ces annotations fournissent également des critères pertinents de recherche. A titre d’exemple, le projet ArchaeoKM, en collaboration avec l’institut i3mainzde Mayence et l’Université de Bochum, s’est focalisé sur les tâches d’indexation et d’annotation dans le contexte de l’archéologie industrielle.

Concernant l’indexation, la base de connaissances ou l’ontologie du domaine permet de lier les objets archéologiques qu’elle contient à un ensemble de documents multimédias comme des textes, des images, des photographies, des orthophotographies, des vidéos, des nuages de points 3D, des objets spatiaux (SIG), des objets 3D, etc. Le verrou scientifique levé ici était l’indexation sémantique d’objets possédant une définition spatiale contenue dans un système d’information géographique à l’aide d’une ontologie de domaine. Concernant l’annotation, la plateforme couplée à l’ontologie permet d’annoter une partie d’une image, d’une photographie, d’un nuage de points 3D, d’un objet 3D, avec des connaissances contenues dans l’ontologie pour indiquer, par exemple, les objets contenus dans une image ou un nuage de points 3D. Par conséquent, un objet archéologique permet d’indexer un ensemble de documents multimédias qu’il est possible de rechercher à partir de sa position spatiale sur le site. Pour chaque élément multimédia, il est possible d’annoter les éléments qu’il contient. Ces informations indexées et annotées peuvent à présent faire l’objet de traitements couramment réalisés sur les ontologies telles que le raisonnement ou l’exécution de programmes logiques.

Objectif du PEPS

  • Qualifier les besoins techniques liés à l’interopérabilité, à l’annotation et indexation sémantique.
  • Concevoir une architecture capable de répondre à la problématique.
  • Mettre en oeuvre des moyens pour financer le développement de la solution technique.

Apports des différentes parties

Lamop Panthéon Sorbonne

  • Apport du savoir métier pour la modélisation des connaissances en lien avec les trois bases de données.
  • Aide à définition du cahier des charges lié aux gisements de données prosoprographiques.

Le2i

  • Apport du savoir-faire sur la capitalisation et modélisation des connaissances.
  • Outils logiciels d’indexation et d’annotation sémantique

Besoins identifiés du projet sont au nombre de deux

  • Développement d’un système offrant la possibilité de rendre les bases de données interopérbles.
  • Adapter la plate-forme ArchaeoKM pour les besoins d’indexation et d’annotation.