Enseignement universitaire

Je suis responsable à l'IUT de Dijon des modules de

  • Système d’exploitation en deuxième année de DUT, département Informatique, depuis 2005 ;
  • XML et Web sémantique au semestre 4 études longues, département Informatique, depuis 2013 ;
  • Base de données de graphes en LP Pro IASM, depuis 2018 ;
  • Moteur de recherche en LP Pro IASM, depuis 2018 ;
  • Visualisation de données en LP Pro IASM, depuis 2018 ;
  • Introduction au Big Data en LP CRCML, département MMI, à l'IUT de Dijon depuis 2016.

J'ai été responsable des modules de

  • Base de données en deuxième année de DUT, département Informatique, lors de l'année 2012-2013à la suite du départ d'un collègue ;
  • Développement Android au semestre 4 études longues, département Informatique, de 2008 à 2012.

Je participe chaque année aux projets tutorés, aux visites de stage, aux soutenances de stages et aux journées portes ouvertes

DUT Informatique

Système d'exploitation

L'objectif de ce cours est d'être en mesure de comprendre les fonctionnalités de base des systèmes d'exploitation reliés aux aspects de :

  • gestion des processus ;
  • gestion de la mémoire (allocation dynamique, segments de mémoire) ;
  • gestion des fichiers (physique, logique, systèmes de gestion de fichiers virtuels) ;
  • gestion des processus (états des processus) ;
  • Les processus légers (thread) ;
  • communication interprocessus (tubes, signaux) ;
  • techniques de synchronisation : sémaphores, section critique.

GitHub

CM 15h - TD 16h - TP 14h

XML et Web sémantique

Le Web sémantique est une extension sous la forme de standard du Web développée par le World Wide Web Consortium (W3C). Ces standards encouragent l'utilisation de formats de données et de protocoles d'échange en s'appuyant sur le modèle Resource Description Framework (RDF).

Les technologies abordées dans ce cours sont :

  • Le XML fournit une syntaxe élémentaire, pour la structure du contenu dans les documents, mais il ne décrit pas la sémantique du document. XML n'est pas à l'heure actuelle une composante nécessaire des technologies du Web sémantique. Dans la plupart des cas, des syntaxes alternatives comme Turtle existent. Turtle est un standard de facto car moins verbeux que XML, mais n'a pas été choisi à travers un processus de normalisation formelle.
  • Le XSD est un langage de description de format de document XML permettant de définir la structure et le type de contenu d'un document XML. Cette définition permet notamment de vérifier la validité de ce document.
  • Le RDF est un langage simple pour exprimer des modèles de données sous forme d'objets (« ressources ») et de leurs relations. Un modèle basé sur RDF peut être représenté à travers plusieurs syntaxes d'échanges, par exemple, RDF/XML, N3, Turtle, et RDF. RDF est une norme fondamentale du Web sémantique.
  • RDF Schema étend le RDF et son vocabulaire pour pouvoir structurer les propriétés et les classes au sein d'une ressource décrite en RDF.
  • OWL ajoute plus de vocabulaire pour décrire les propriétés et les classes : comme avec les relations entre les classes, la cardinalité (par exemple « exactement un »), l'égalité, le typage des propriétés, les caractéristiques de propriétés (par exemple la symétrie), etc.
  • SPARQL est un langage de requête et un protocole qui permettra de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles dans le Web à travers l'Internet.

CM 8h - TD 12h - TP 8h

Licence Pro ISAM - Big Data

Au cours de l’année 2015, j’ai déposé une mention de licence Pro « Métiers de l'informatique : systèmes d'information et gestion de données. », LICENCE PROFESSIONNELLE Analyste de Données, Big Data.

La formation est ouverte depuis la rentrée 2018-2019.

Base de données de graphes

La première partie du cours se concentrera sur Apache TinkerPop™, une infrastructure open source de gestion de graphes, indépendante des fournisseurs (vendor-agnostic) et distribuée sous la licence commerciale Apache2. Lorsqu'un système de gestion de données est compatible avec TinkerPop, ses utilisateurs peuvent modéliser leur domaine sous la forme d'un graphe et analyser ce graphe à l'aide du langage de parcours de graphes nommé Gremlin (Gremlin graph traversal language). De plus, tous les systèmes compatibles TinkerPop s'intègrent les uns avec les autres, ce qui leur permet d'étendre facilement leurs offres et de choisir la technologie graphique adaptée à leur application. Parfois, une application possède de meilleures performances avec une base de données de graphe transactionnel en mémoire. Parfois, une base de données de graphes distribués multi-machines sera plus pertinente. Certaines applications requièrent à la fois une base de données de graphes distribués pour les requêtes en temps réel et, en parallèle, un processeur Big (Graph) Data pour l'analyse par lots. Quelles que soient les exigences de l'application, il existe un système de gestion de graphe compatible avec TinkerPop pour répondre aux besoins de l'application.

La deuxième partie aborde Neo4j, un système de gestion de base de données au code source libre basée sur les graphes, développé en Java. La base de données Neo4j est construite pour être extrêmement performante pour traiter les liens entre noeuds. Ces performances sont dues au fait que Neo4j pré-calcule les jointures au moment de l'écriture des données, comparativement aux bases de données relationnelles qui calculent les jointures à la lecture en faisant appel aux Index et à la logique de clés. Ce qui fait de Neo4j une technologie adaptée à de larges ensembles de données connectées.

Les parcours de graphe utilisent le langage de requête Cypher élaboré dans le but de réaliser plus simplement que SQL les opérations de parcours ou d'analyse de proximité.

CI 12 - TP 14

Moteur de recherche

La Recherche d’Information (RI, Information Retrieval, IR en anglais) consiste à trouver des documents peu ou faiblement structurés, dans une grande collection, en fonction d’un besoin d’information. Le domaine d’application le plus connu est celui de la recherche “plein texte”. Étant donné une collection de documents constitués essentiellement de texte, comment trouver les plus pertinents en fonction d’un besoin exprimé par quelques mots-clés ? La RI développe des modèles pour interpréter les documents d’une part, le besoin d’information d’autre part, en vue de faire correspondre les deux, mais aussi des techniques pour calculer des réponses rapidement même en présence de collections très volumineuses. Enfin, des systèmes (appelés “moteurs de recherches”) fournissent des solutions sophistiquées prêtes à l’emploi.

Ce cours introduit les différents aspects en se concentrant sur la recherche d’information appliquée à des collections de documents structurés, comprenant des parties textuelles importantes.

Les éléments suivants seront abodés :

  • Tokenisation des documents ;
  • Création d'un dictionnaire ;
  • Création du model de sac de mots (Bag of Words) ;
  • Transformations du modèle de sac de mots ;
  • Requête de similarité.

CI 2 - TP 6

Visualisation de données

La visualisation des données est une compétence importante dans les statistiques appliquées et l'apprentissage automatique. Les statistiques se concentrent en effet sur des descriptions quantitatives et des estimations de données. La visualisation de données fournit une suite importante d'outils pour acquérir une compréhension qualitative.

Les objectifs de ce cours sont : * Tester le mapping des données sur des marques graphiques (ligne, carré, etc.) et leurs propriétés (taille, couleur, etc.) ; * Faire la distinction entre données brutes et abstraites, ainsi qu'entre dimensions et mesures ; * Explorer un espace de conception de visualisation ; * Comment résumer les distributions de données avec histogrammes et boîtes à moustaches ; * Comment résumer la relation entre les variables avec des diagrammes de dispersion ; * Comment explorer la structure temporelle des séries temporelles avec les tracés linéaires, les tracés de décalage et les tracés d'autocorrélation ; * Comment comprendre la distribution des observations à l'aide d'histogrammes et de diagrammes de densité ; * Comment maîtriser le changement de distribution sur des intervalles à l’aide des diagrammes en boîte, des moustaches et des diagrammes thermiques.

CI 4 - TP 6