SummaryDL
Rédaction automatique de résumés à partir de texte par schémas lexico-grammaticaux (figements) et apprentissage profond.
Contexte
Le processus de prise de décision dans le domaine économique nécessite la centralisation et l'apport de grandes quantités d'informations, l'objectif étant de rester en phase avec les tendances actuelles du marché. Avec l'aide de la veille économique, les perspectives d’affaires peuvent être plus facilement identifiées, dans l’objectif de décrocher de nouveaux contrats. Toutefois, la masse d’informations produites à l’heure actuelle dans le domaine de la finance ne permet pas d’en avoir une vue d’ensemble : le recours à l’extraction automatique d’information est indispensable. Le présent projet, développé à l’interface entre sciences du langage et informatique, vise toutefois à dépasser cette étape de l’extraction pour proposer un outil d’aide à la rédaction automatique, spécialisé dans le domaine financier et qui permette une mise en forme fluide et idiomatique des segments informationnels extraits.
Avec le développement des corpus massifs, y compris sur des domaines spécialisés non-couverts par les corpus de référence, la linguistique de corpus associée à la fouille de textes, est devenue un acteur majeur des industries de la langue (traduction ou la rédaction semi-automatique p.e.). L’attention ne se porte désormais plus sur des termes isolés – au sens de la terminologie wüstérienne – mais sur des segments récurrents associant indifféremment lexique et grammaire, les schémas lexico-grammaticaux ou patterns (Gledhill/Kübler 2016). Au vu du domaine envisagé ici, l’extraction et l’exploitation de ces schémas visera à augmenter la fluidité et la transparence de l’opération de rédaction automatique.
De son côté, le word embeddings est l'une des rares applications actuellement réussies d'apprentissage non supervisé. Son principal avantage est qu'il n'a pas besoin d'annotation coûteuse, mais qu’il peut être dérivés de grands corpus non annotés. Des plongements lexicaux pré-formés peuvent ensuite être utilisés dans des tâches en aval utilisant de petites quantités de données étiquetées. Le word embeddings est ainsi une représentation dense de mots sous la forme de vecteurs numériques. Il peut être appris en utilisant une variété de modèles de langage. Une hypothèse intuitive pour une bonne intégration des mots est qu'ils peuvent approximer la similarité entre eux ou divulguer des relations sémantiques cachées, particulièrement importantes en discours spécialisés où les valeurs par défaut supposées maîtrisées par les experts ne sont pas verbalisées. L'information contextuelle, en grande partie saisie dans les schémas, est dès lors très utile pour apprendre la signification et la relation des mots, car des mots similaires peuvent souvent apparaître dans le même contexte. La représentation des mots se fait ainsi dans un espace avec une forme de similarité entre eux dans lesquels le sens des mots les rapproche dans cet espace en termes de distances statistiques.
Problématique, enjeux, méthodologie
La problématique globale peut être formulée ainsi : existe-t-il un système d’intelligence artificielle à même de produire des résumés à partir d'un sous-ensemble de sources pour avancer le travail des documentalistes, aider à la production d’articles, couvrir un plus large secteur d’activité, en utilisant les schémas lexico-grammaticaux spécialisés et idiomatiques ?
Au niveau méthodologique, il s’agira de faire converger l’approche de la linguistique de corpus et celle du word embeddings de sorte à déboucher sur un protocole reproductible pour d’autres domaines et un outil témoin appliqué au domaine financier. Du point de vue linguistique, la notion de figement, et notamment les schémas lexico-grammaticaux, a connu un profond renouvellement de son mode de conceptualisation depuis l’avènement de la linguistique de corpus et l’analyse statistique automatique de vastes corpus. Le figement n’y est ainsi plus envisagé comme anomalie ou exception, mais comme le véritable moteur de l’usage de la langue. Il est aujourd’hui envisagé dans une perspective holistique comme formant un continuum lexique-grammaire-texte bouleversant les catégories d’analyse traditionnelle, y compris en TAL. Il repose sur les deux principes clefs de récurrence et de reproductibilité pouvant être mis en œuvre tant pour l’analyse/classement des textes que pour la production semi-automatique. La thèse partira donc du modèle textuel spécialisé développé à la MSH de Dijon (Gautier 2018), les textes les plus spécialisés et les plus contraints pouvant être réduits à une concaténation de figements à trois niveaux permettant leur analyse semi-automatique : niveau des contenus référentiels, niveau de la linéarisation des énoncés et niveau des formulations et de la « phraséologie » du domaine dans la mesure où les termes clefs jouant le rôle d’arguments des fonctions prédicatives peuvent être précisément décrits en termes de micro-grammaires.
La récente renaissance de l'apprentissage en profondeur a mis l'accent sur un paradigme simple et uniforme de l’analyse textuelle à savoir que le langage n'est que des séquences de mots. Selon cette logique, toute structure supplémentaire est inutile et, ainsi, l'entraînement d'une descente de gradient ou d’un réseau de neurones récurrent (RNN, LSTM, etc.) déterminera le reste. Bien que cette approche ait rapidement rencontré une popularité et un succès sans précédent en raison de la commodité de ne nécessiter aucune ingénierie du langage, ses limites deviennent de plus en plus évidentes. C’est pourquoi les approches linguistiques incluant le principe de word embeddings, comme proposé ici, permettent l’apprentissage de figements par des réseaux profonds. Les méthodes à base de Réseaux antagonistes génératifs (Generative adversarial network) permettent de produire des séquences de mots ayant un sens pour l’utilisateur. Ces méthodes ont largement été appliquées pour la production synthétique de photographies d’individus, et popularisées par la production de vidéos DeepFake.
Objectifs et résultats escomptés
Les objectifs de la thèse se retrouveront à trois niveaux. (i) La création d’un corpus inédit satisfaisant aux standards internationaux en la matière et inter-opérable de façon à garantir la possibilité d’un dépôt dans un entrepôt dédié. Cet aspect du sujet s’inscrit dans une synergie avec la plateforme ADN de la MSH Dijon (USR CNRS uB 3516). (ii) Une contribution théorique aux recherches en sciences du langage outillée et à la technique du word embeddings. (iii) Le développement d’un système prototype, reproductible, et sa mise en œuvre sur le domaine financier en lien avec la société Actualis.
Bibliographie
Cruz, C., Nguyen van C. & Gautier, L. (2018). Word Embeddings for Wine Recommender Systems Using Vocabularies of Experts and Consumers. In Open Journal of Web Technologies (OJWT), 5(1) (pp. 23-30). https://www.ronpub.com/ojwt/OJWT_2018v5i1n04_Cruz.html Gautier, L. (2018). Le figement clef d’entrée dans les discours spécialisés. In Gautier, L. (Ed.). Figement et discours spécialisés. Berlin : Frank & Timme, 7-13. Gledhill, Christopher/Kübler, Natalie (2016). What can linguistic approaches bring to English for Specific Purposes?, in: ASp - La revue du GERAS, 69, 65-95. Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543). Hamilton, W. L., Leskovec, J., & Jurafsky, D. (2016). Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. arXiv Preprint arXiv:1605.09096.
Données sur le projet
L’équipe de projet
- Abdelghani Laïfa, PhD
- Laurent Gautier - uB - Centre Interlangues Texte Imagage Langage, EA4182
- CRUZ Christophe - uB - Laboratoire d'Informatique de Bourgogne
Financé par
Contrat doctoral - I-Site UBFC
Durée du projet
Octobre 20019 à décembre 2022