Les missions du poste

Établissement : Université de Technologie de Compiègne École doctorale : Sciences pour l'ingénieur Laboratoire de recherche : Génie enzymatique et cellulaire Direction de la thèse : Franck MERLIER ORCID 0000000288958357 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-04T23:59:59 Les approches de spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) occupent aujourd'hui une place centrale dans l'identification des contaminants émergents, notamment les substances per- et polyfluoroalkylées (PFAS), pesticides, métabolites et produits de transformation. Malgré les progrès récents, l'exploitation des données non ciblées reste limitée par la complexité des signaux générés, la diversité chimique des composés, la dépendance instrumentale des spectres MS/MS et le temps important nécessaire au traitement manuel des données.

Cette thèse propose de franchir une nouvelle étape en développant une architecture innovante fondée sur des agents d'intelligence artificielle spécialisés, capables de collaborer au sein d'un workflow automatisé allant de la structure chimique théorique jusqu'à l'interprétation de données expérimentales. L'objectif est de construire une chaîne prédictive complète à partir du SMILES d'une molécule, afin d'anticiper son comportement analytique, ses produits de transformation et sa signature spectrale.

Un premier agent sera dédié à la lecture structurale moléculaire et à l'extraction automatisée de descripteurs chimiques pertinents (masse exacte, logP, fonctions chimiques, pKa, polarité, motifs halogénés, indices topologiques). Ces informations alimenteront plusieurs modules prédictifs.

Un second agent sera consacré à la biotransformation in silico, capable de générer de manière hiérarchisée les métabolites primaires, secondaires et tertiaires à partir d'une structure parentale. Il intégrera des règles de transformation enzymatique, environnementale ou chimique afin d'anticiper la présence de composés non référencés dans les bases de données actuelles.

Un troisième agent visera la prédiction chromatographique, notamment du temps de rétention en LC, à partir des descripteurs moléculaires et des conditions analytiques. L'ambition est de développer des modèles transférables selon différents gradients, phases stationnaires et modes chromatographiques.

Un quatrième agent sera dédié à la prédiction MS/MS instrument-spécifique, en distinguant les mécanismes de fragmentation propres aux plateformes :

CID sur QTOF,
HCD sur Orbitrap,
avec prise en compte de l'énergie de collision, de la polarité et des familles chimiques. L'objectif est de générer des spectres théoriques réalistes améliorant fortement les approches de suspect screening.

Enfin, un cinquième agent assurera la lecture automatisée des fichiers bruts instrumentaux (Agilent, Thermo, mzML...), la recherche ciblée ou suspecte des molécules prédites, l'extraction des signaux chromatographiques, l'alignement inter-échantillons et l'agrégation des résultats sous forme de heat maps, matrices comparatives ou réseaux de présence/abondance. Ce module pourra s'appuyer sur des workflows existants sous R ou Python, enrichis par l'IA.

L'originalité du projet repose sur le passage d'outils isolés à un écosystème coopératif d'agents IA, chacun expert d'une tâche analytique, capables d'échanger leurs prédictions pour améliorer la confiance globale d'identification. Une molécule pourra ainsi être évaluée de manière intégrée : structure plausible, métabolites attendus, temps de rétention cohérent, fragmentation compatible, présence observée dans les données brutes et distribution entre échantillons.

Les applications concerneront prioritairement les PFAS et contaminants émergents, mais l'approche sera généralisable à d'autres familles chimiques en exposomique, environnement ou santé.

À l'interface entre chimie analytique, apprentissage automatique et sciences de l'environnement, cette thèse ambitionne de poser les bases du laboratoire analytique augmenté par agents intelligents. Les approches de non-target screening (NTS) par LC-HRMS sont aujourd'hui incontournables pour explorer les contaminants émergents. Toutefois, elles génèrent un nombre important de signaux difficiles à interpréter et un taux élevé de faux positifs lors de l'annotation.

Les PFAS présentent des propriétés structurales particulières exploitables analytiquement, notamment les séries homologues fluorées détectables via le Kendrick Mass Defect (KMD) basé sur CF. En parallèle, les progrès récents du machine learning permettent désormais de prédire le temps de rétention chromatographique, d'exploiter les spectres MS/MS et de hiérarchiser les candidats structuraux. Enfin, les outils de biotransformation in silico ouvrent la possibilité d'anticiper la présence de métabolites ou produits de transformation encore absents des bases de données classiques. Les substances per- et polyfluoroalkylées (PFAS) représentent un enjeu majeur de santé publique du fait de leur persistance, mobilité et diversité structurale. Leur identification par LC-HRMS reste complexe en raison du grand nombre d'isomères, précurseurs et produits de transformation, ainsi que du manque de standards analytiques.

L'objectif de la thèse est de développer un workflow innovant permettant d'améliorer l'identification et la priorisation des PFAS dans des matrices environnementales et biologiques, en combinant :

filtrage chimique spécifique PFAS,
apprentissage automatique,
modélisation de biotransformation,
exploitation conjointe des données full scan, DDA et DIA sur QTOF. Le travail s'articulera en six axes :

- Acquisition LC-HRMS sur QTOF en modes full scan, DDA et DIA.
- Prétraitement des données : extraction des features (m/z, RT, intensité, isotopes).
- Filtrage PFAS spécifique : calcul du KMD-CF, détection de séries homologues, réduction de l'espace analytique.
- Génération de candidats : compilation de listes suspectes et production de métabolites via BioTransformer.

- Développement de modèles prédictifs sous forme d'agent : prédiction du temps de rétention, scoring structure/signal, reconnaissance de patterns MS/MS spécifiques QTOF ou Orbitrap.

- Fusion multicritère des scores (masse exacte, KMD, RT prédit, cohérence MS/MS) afin d'attribuer un niveau de confiance aux identifications.

Le profil recherché

Titulaire d'un Master 2 ou diplôme d'ingénieur en chimie analytique, chimie, bioinformatique, data science ou domaine connexe. Solides connaissances en spectrométrie de masse, chromatographie liquide et traitement de données analytiques appréciées. Compétences en programmation (R, Python ou équivalent), statistiques et apprentissage automatique souhaitées. Intérêt marqué pour l'interdisciplinarité à l'interface chimie-IA-environnement, avec aptitude à travailler sur données complexes. Autonomie, rigueur scientifique, capacité rédactionnelle en anglais et esprit d'initiative recherchés.

Compétences requises

  • Compétences rédactionnelles
Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.