Activités de recherche
Cette section décrit mes activités de recherche dans le domaine de la modélisation des connaissances, des systèmes à bases de connaissances et des systèmes centrés utilisateur.
Je m'intéresse à la modélisation, au stockage, à l'extraction, à l'exploitation, au traitement et au partage de connaissances par approche symbolique et numérique, à l'apprentissage artificiel et à l'apprentissage profond.
Thématiques
Je m’intéresse tout particulièrement à la modélisation et la représentation des connaissances, ainsi que l’étude des systèmes capables de les exploiter. Il s’agit pour ces systèmes dans mes activités de recherche d’inférer de nouvelles connaissances à l’aide de mécanismes de raisonnements valides ou non monotones, d’inférer sur des connaissances 2D, 3D et spatio-temporelles, de rechercher et recommander de l’information et notamment des données textuelles à l’aide de traitements automatiques du langage.
Depuis plus de cinquante ans, le domaine de l’intelligence artificielle développe des outils de modélisation permettant de formaliser la connaissance à l’aide de langages ontologiques. A partir de cet héritage, le mouvement du Web sémantique a développé des dialectes ontologiques permettant une meilleure interopérabilité des données. La communauté a aussi développé des méthodes et outils pour produire des connaissances. Aujourd’hui, ces outils de modélisation et de traitement des ontologies s’insérant dans la dynamique des graphes de connaissances possèdent de nombreux avantages marqués toutefois d’un certain nombre de limites tels que la gestion valide de l’évolution des connaissances, l’inférence quantitative et qualitative sur des relations spatiales 3D, la gestion de l’imprécision et l’incertitude dans les systèmes à base de connaissances, l’indexation de grands volumes de données à l’aide de connaissances expertes.
Plus récemment, je m’intéresse aux modèles d’intelligence artificielle et à l’apprentissage profond. En regard des approches symboliques, ces approches connectivistes ou subsymboliques apporte des réponses au traitement automatique de grands volumes de données et notamment des données textuelles. Par exemple, les grands modèles de langage permettent de produire des résumés automatiques par approche extractive (extraction des phrases clés) ou abstractive (écriture synthétique du résumé). Cette thématique concerne la thèse de Abdelghani Laïfa en collaboration avec les linguistes du Laboratoire TIL de l’Université de Bourgogne où notre méthode d’augmentation des données a permis de produire des résumés de meilleure qualité idiomatique. Les travaux avec l’entreprise Actualis visent l’indexation automatique de corps textuels à l’aide d’une taxonomie métier (Multilabel classification) et l’analyse de la dynamique de la modélisation des thèmes (Dynamic Topic Modeling) et de leur trajectoire à l’aide de modèle à base de Transformer pour veille économique et stratégique.
Concernant le projet DL4Graphs avec l’entreprise DAVI dans le cadre d’un financement France Relance, nous étudions les IA hybride neurosymbolique pour répondre aux problématiques d’hallucination, de non-exhaustivité, de séquence des modèles de langage pour la génération automatique de textes. Nous visons à produire des modèles hybrides capables d’extraire des connaissances à partir de textes sous la forme de graphes de connaissances et de produire du texte à partir de ces mêmes graphes. De plus, je travaille avec le laboratoire TIL sur les cadres sémantiques avec pour objectifs la formalisation de l’idiomaticité sous la forme de patterns lexico-grammaticaux pour renforcer l’extraction et la restitution des connaissances métiers depuis et vers le texte. Pour venir soutenir l’effort de calcul, j’ai déposé un projet Projet européen OCRE Google Cloud pour un montant de 250k€ de Cloud Google (2022) et le développement d'IA hybride (symbolique et subsymbolique) (Vertex AI, Neo4J, Kubernetes, etc.).
Aujourd’hui, mes travaux s’orientent sur le RAG (Retrieval Augmented Generative). Le RAG est un modèle de langage récent qui combine les capacités de génération de texte avec des mécanismes de récupération d'informations. Contrairement à certains modèles de langage précédents qui génèrent du texte à partir de zéro, le RAG peut accéder à une base de connaissances externe pour informer et guider sa génération de texte. Cela lui permet d'être plus précis et informatif dans ses réponses en s'appuyant sur des informations disponibles dans la base de connaissances. Mons approche s’oriente sur l’usage des graphes de connaissances qui peuvent être utilisés pour enrichir la base de connaissances accessible par le RAG. En structurant les informations sous forme de graphe, il devient plus facile pour le modèle de naviguer et d'extraire des informations pertinentes. De plus, les graphes de connaissances peuvent être utilisés pour valider et enrichir automatiquement la base de connaissances, en identifiant des relations implicites entre les entités et en proposant de nouvelles informations à ajouter. Cela peut améliorer la qualité et la richesse des informations disponibles pour le modèle, ce qui à son tour peut améliorer la qualité des réponses générées. Les projets concernés sont le Plan France Relance DL4Graph, la thèse de Marion Sinaeve sur le projet régional de type Envergure et le laboratoire TIL, et la thèse Oualid Bougzime sur la gestion des connaissances dans le domaine des matériaux intelligents et l’impression 4D.
Encadrement doctoral
Thèses en cours
Doctorants | Titre de la thèse - lien vers le résumé | Co-encadrant(s) |
---|---|---|
Oualid Bougzime | Développement d'un système de prédiction/recommandation pour l'impression 4D de structures intelligentes utilisant des graphes de connaissances et un modèle de langage, PIA Artemis | Frédéric Demoly, Christophe Cruz |
Marion Sinaeve | Production de graphes de connaissances et de textes par approche neuro-symbolique, projet régional BFC Envergure | Christophe Cruz, Lylia Abrouk, Laurent Gautier |
Nicolas Zante | Développement d’une aide à la décision pour l’élaboration des appels d’offres de l’environnement de travail (workplace, FM, services généraux) 102/103 | Christophe Cruz, Sebti Foufou |
Flann Chambers | Des modèles basés-agents enrichis par des graphes de connaissance, pour l'analyse descriptive, prédictive et prescriptive de l'évolution des territoires, thèse en collaboration avec l'institut UNIGE, Genève | Giovanna Di Marzo Serugendo, Christophe Cruz |
Christian Wolf | Interdependencies of care for the elderly in rural areas – a holistic perspective, thèse en collaboration avec l'institut i3mainz, Mayence | Markus Schaffer, Christophe Cruz, Hocine Cherifi |
Sarah Theroine | Amélioration de l'idiomaticité d'un assitant conversationnel multilingue à travers la notion de schémas/patterns spécialisés - extrait de corpus comparables, thèse sur contrat de collaboration avec DAVI | Laurent Gautier, Christophe Cruz |
Thèses passées
Jury de thèses
Coopérations internationales
Années | Description |
---|---|
2005-* | Coopération avec l’Institut i3mainz de Mayence (Allemagne), 3 thèses soutenues cours, 2 projets ANR et plus de 40 publications communes (projets ArchaeoKM, WiDOP, SemGIS, ANR HiGeoMes, ANR TexTelSem) |
2014-17 | Coopération avec l’Université d’Oran (Algérie), chercheur invité, 1 publication commune indexée ISI WoS |
2014 | Coopération avec l’institut IPN Mexico (Mexique), chercheuse invitée, 1 publication commune |
2012-16 | Coopération avec l’Institut ISEP de Porto (Portugal), plus de 10 publications (projet S-HMC Maintenance) |
2013 | Coopération avec l’Université de Hainan (Chine) avec Dr. Yucong Duan et 2 publications communes |
Communauté scientifique
- Membre du bureau Association EGC, prix de thèse
- Co-président de programme EGC, Extraction et Gestion des Connaissances, EGC 2024, Dijon
- Comité d'organisation EGC, Extraction et Gestion des Connaissances, EGC 2024, Dijon
- Publication Chairs FRCSS, French Regional Conference on Complex Systems, FRCCS 2023, May 31 - June 02, 2023, Le Havre
- Local chair FRCSS, French Regional Conference on Complex Systems, FRCCS 2021, ONLINE, May 26 - 28, 2021, Dijon
- Expertise ANRT-CIFRE 2021
- Editorial Board MDPI - Mathematics
- Comité de suivi de thèse de Maryam Maslek Elayam, Analyse de motifs et comportements de trajectoires maritimes, 2020/2021
- Guest Editors: IEEE Access, Innovation and Application of Intelligent Processing of Data, Information and Knowledge as Resources in Edge Computing, 29 February 2020
- Program Committee: IEEE International Workshop on Knowledge Graph as a Service'20, i-society'14, SITIS'14, CASE’15, BigCVEn’15’16, KEOD’15’16'17'18'19'20'21, ESWC’17, WEBIST'18'19'20'21, MARAMI'20
- Local committee chair MARAMI'19
- PC member of IEEE SERVICES 2019 Workshop on Knowledge Graph as a Service (KGAAS), 2019
- Open journal, Sven Groppe, Christophe Cruz, The First International Workshop on Web Data Processing & Reasoning (WDPAR 2018) in Open Journal of Web Technologies (OJWT), 2018, Vol.5, (1), p.1-5, Special Issue: Proceedings of the International Workshop on Web Data Processing & Reasoning (WDPAR 2018) in conjunction with the 41st German Conference on Artificial Intelligence (KI) in Berlin, Germany.
- Journal reviews: SCP, Journal Automation, Journal IARIA'14, Journal IPL, Mechatronics, Data & Knowledge Engineering'17'20, Computers in Industry'17, Software & Systems Modeling'17, Journal IEEE Access'19, IJGIS'21, ZUSC'21, MDPI'21
- Expertise pour l’Université PSL Paris Sciences et Lettres (2016)
- Membre de l’action prospective du GdR MAGIS – Dynamiques spatiales et Interactions (2015-)
- Organisation du 1er Colloque du projet HiGeoMes ANR-DFG – IUT Dijon (2012)
Awarded Papers
Conférencier invité - communications
- An overview on large language models LLM and knowledge graphs, Sibiu Innovation Days, 5 et 6 Octobre 2023
- Addressing the Challenges of Understanding the Behaviours of Moving and Changing Objects in Dynamic Environments, Séminaire à l'Université de Lisbonne, 2018
- Approche sémantique pour la recommandation de documents textuels dans un contexte Big Data appliquée à la veille économique, à l’Institut des Sciences de l’Homme de Lyon accueille La 4ème édition des journées « Big Data Mining and Visualization », Jeudi 18 et vendredi 19 juin 2015, Institut des Sciences de l’Homme, 14 avenue Berthelot, Lyon 7ème, http://eric.univ-lyon2.fr/~gt-fdc/journees/, http://25images.ish-lyon.cnrs.fr/bigdatamining-juin2015/video/christophe-cruz/fr
- From Text to Knowledge and Knowledge to Text. Towards a formal modelling of philological Knowledge from Old Babylonian and Middle Assyrian Texts, The Potential of Itineraries and journeys for Historical Geography, 19 November, LMU München, 2015
Cinq publications de référence
- Saoussen Dimassi, Frédéric Demoly, Christophe Cruz, H. Jerry Qi, Kyoung-Yun Kim, Jean-Claude André, Samuel Gomes, An ontology-based framework to formalize and represent 4D printing knowledge in design, Computers in Industry 126, 2021 doi
- Muhammad Arslan, Christophe Cruz, D. Ginhac, Understanding Occupant Behaviors in Dynamic Environments using OBiDE Framework, Building and Environment 166, Dec. 2019, p.106412. doi
- Muhammad Arslan, Christophe Cruz, D. Ginhac, Spatio-temporal dataset of building occupants, Data in Brief 27, Oct. 2019, pp. 1-7, p.104598. doi
- Muhammad Arslan, Christophe Cruz, D. Ginhac, Visualizing Intrusions in Dynamic Building Environments for Worker Safety, Safety Science 120, Dec. 2019, pg. 428-446. doi
- Muhammad Arslan, Christophe Cruz, D. Ginhac, Semantic Trajectory Insights for Worker Safety in Dynamic Environments, Automation in Construction 106, Oct. 2019, p.102854. doi