Nous avons le plaisir de vous convier à la soutenance de thèse de Mme. Insaf NAHRI intitulée « Mise en œuvre des techniques de traitement du langage naturel pour l’extraction et la formalisation automatique d’exigences dans le domaine de la construction » .
La soutenance se déroulera le vendredi 31 Janvier 2025 à 13h30 dans l’amphithéâtre J001 du Campus d’Aix-en-Provence, Arts et Métiers.
Vous pourrez également suivre la soutenance de thèse via le lien Teams suivant :
Rejoignez la réunion maintenant
ID de réunion : 334 818 192 411
Code secret : RE9zr2Hk
Le jury sera composé de :
NOM et Prénom | Fonction et établissement | Examinateur / Rapporteur / Invité |
M. Sebti FOUFOU | Professeur des universités, Université de Sharjah | Rapporteur |
M. Matthieu BRICOGNE-CUIGNIÈRES | Maître de Conférence, UTC | Rapporteur |
M. Frédéric SEGONDS | Professeur des universités, ENSAM | Examinateur |
M. Philippe VÉRON | Professeur des universités, ENSAM | Examinateur |
M. Romain PINQUIÉ | Maître de Conférence, UGA | Examinateur |
M. Nicolas BUS | Ingénieur de recherche, CSTB | Invité |
M. Mathieu THOREL | Docteur, CSTB | Invité |
Résumé des travaux :
Dans le secteur de la construction, les exigences techniques sont souvent consignées dans des documents non structurés, comme le Cahier des Clauses Techniques Particulières (CCTP), un document contractuel définissant les critères auxquels les bâtiments doivent se conformer. L’extraction manuelle de ces informations est longue et sujette aux erreurs, limitant l’intégration dans des systèmes automatisés de conformité. L’émergence de GPT-3 en 2023 a transformé le domaine du Traitement Automatique du Langage Naturel (TALN) en introduisant des capacités
avancées d’extraction et de compréhension du texte, remettant en question les méthodes existantes. Cette thèse propose un cadre pour automatiser l’extraction des exigences et évaluer l’efficacité de GPT-4 et d’autres modèles comparativement aux méthodes traditionnelles. Le cadre inclut la création d’une base de données annotée de CCTP et des techniques de Named Entity Recognition (NER) et Relation Extraction (RE) pour identifier et relier les entités techniques. Après fine-tuning, CamemBERT a obtenu un F1-score supérieur à 96 % pour la NER, et le modèle Random Forest (RF) a atteint 83 % pour la RE , surpassant les performances de GPT-4. Les entités et relations extraites sont structurées pour intégrer directement les systèmes de vérification de conformité, comme le Building Information Modeling (BIM), permettant ainsi une vérification automatisée des exigences issues des CCTP. Le cadre offre une solution pour traiter les documents non structurés en transformant les exigences textuelles en informations exploitables par machine, ouvrant la voie vers Model Based Requirements Engineering (MBRE) pour une meilleure collaboration entre les parties prenantes et une traçabilité accrue tout au long des projets de construction.
Mots-clés : Extraction des exigences, NER, RE , TALN , BIM , Documents non structurés, LLMs, Construction.
Abstract :
In the construction sector, technical requirements are often documented in unstructured formats, such as the Cahier des Clauses Techniques Particulières (CCTP), a contractual document that defines the specifications buildings must adhere to. Manual extraction of this information is time-consuming and prone to errors, complicating integration into automated compliance systems. The emergence of GPT-3 in early 2023 transformed the field of Natural Language Processing (NLP) by introducing advanced capabilities for information extraction and text understanding, challenging existing methods. This thesis proposes a framework to automate requirements extraction and assess the effectiveness of GPT-4 and other models compared to traditional methods. The framework includes the creation of an annotated CCTP database and techniques for Named Entity Recognition (NER) and Relation Extraction (RE) to identify and link technical entities. After fine-tuning, CamemBERT achieved an F1-score above 96% for NER, and the Random Forest (RF) model reached 83% for RE , outperforming GPT-4. The extracted entities and relationships are structured to directly integrate into compliance verification systems, such as Building Information Modeling (BIM), enabling automated validation of requirements extracted from CCTP. The developed framework provides a solution for processing unstructured documents by transforming textual requirements into machine-readable information, paving the way toward a Model Based Requirements Engineering (MBRE) approach. This approach facilitates smoother collaboration among stakeholders and enhanced traceability throughout construction projects.
Keywords : Requirements extraction, NER, RE, NLP, BIM, Unstructured documents, LLMs, Construction.
Nous espérons vous voir nombreux.
Les encadrants :
Philippe VÉRON, directeur de thèse
Romain PINQUIÉ, co-encadrant de thèse
Nicolas BUS, co-encadrant de thèse
Mathieu THOREL, co-encadrant de thèse