Les missions du poste

Établissement : Université de Technologie de Compiègne École doctorale : Sciences pour l'ingénieur Laboratoire de recherche : Géosciences, Numérique, Energies Direction de la thèse : Hervé COPPIER Début de la thèse : 2026-09-01 Date limite de candidature : 2026-05-31T23:59:59 La méthanisation en voie liquide constitue un levier stratégique de la transition énergétique, mais les installations actuelles peinent à atteindre leur plein potentiel : environ 30% subissent des arrêts non planifiés chaque année, et les rendements observés restent entre 60 et 75% du théorique. L'étape d'hydrolyse, souvent limitante, peut être améliorée par prétraitement enzymatique, permettant des gains de production de biogaz de 10 à 40%. Cependant, ce levier reste largement empirique, faute d'outils de pilotage prédictif adaptés. Ce projet de thèse CIFRE, mené entre l'Institut Polytechnique UniLaSalle Amiens (unité GeNumEr) et la SAS Chemin du Roi, vise à développer un jumeau numérique hybride capable d'intégrer explicitement l'étape de prétraitement enzymatique dans la modélisation du procédé et d'optimiser le pilotage en temps réel.
L'architecture du modèle hybride repose sur trois couches fonctionnelles interdépendantes. La première est une couche déterministe enrichie, fondée sur le modèle AM2, dans laquelle les paramètres cinétiques constants sont remplacés par des fonctions dynamiques intégrant l'activité enzymatique du prétraitement. La deuxième est une couche d'apprentissage profond basée sur des réseaux LSTM, chargée de prédire l'évolution des paramètres cinétiques à partir des séries temporelles de données opératoires. La troisième est une couche de calibration et de monitoring assurant la mise à jour en temps réel du modèle à partir des mesures capteurs, avec des indicateurs de confiance sur les prédictions. Sur le plan expérimental, les données proviendront des données historiques industrielles fournies par la SAS Chemin du Roi. La stratégie d'entraînement suit trois phases séquentielles : calibration du modèle déterministe enrichi, entraînement du composant LSTM en prédiction multi-horizons, puis validation intégrée sur données indépendantes.
Le déploiement industriel suivra une progression en trois étapes : monitoring passif, pilotage assisté avec recommandations aux opérateurs, puis pilotage automatique en boucle fermée. Les objectifs chiffrés visent une augmentation de production de biogaz d'au moins 10%, une réduction des arrêts non planifiés de 30 à 50%, et une amélioration globale de la rentabilité de 20 à 30%.
Les retombées scientifiques comprennent trois publications internationales et des communications dans des conférences majeures. Le cadre méthodologique développé sera transposable à d'autres bioprocédés complexes. L'encadrement associe des expertises complémentaires en automatique, données et réseaux et génie des bioprocédés. Les rapports du GIEC et les comptes-rendus des sommets environnementaux présentent des conclusions sans équivoque concernant l'état actuel de notre planète. La société contemporaine se trouve confrontée à l'impératif d'agir face à trois défis majeurs interconnectés : le réchauffement climatique, l'effondrement de la biodiversité, et la pollution généralisée des écosystèmes terrestres. Une des mesures mise en place par l'Accord de Paris est de limiter l'augmentation de la température mondiale à 1,5°C au-dessus des niveaux préindustriels. Pour respecter cet engagement et éviter des conséquences climatiques catastrophiques, l'atteinte de la neutralité carbone s'impose comme une nécessité absolue. Les secteurs de l'industrie et de l'énergie sont responsables de 60% des émissions mondiales de CO, rendant prioritaire l'identification et l'implémentation rapide de méthodes de production d'énergie renouvelable compatibles avec les limites planétaires. Dans ce contexte, la méthanisation s'impose comme une technologie clé de la transition énergétique. Ce procédé permet de valoriser les déchets organiques en produisant du biogaz, vecteur énergétique renouvelable, tout en réduisant les émissions de gaz à effet de serre liées à l'enfouissement ou l'incinération des déchets. Le potentiel de développement de la méthanisation est considérable : la France compte actuellement environ 1800 installations en fonctionnement, mais les objectifs de la Programmation Pluriannuelle de l'Énergie (PPE) visent une multiplication par trois de la production de biogaz d'ici 2030 selon le Ministère de la Transition Écologique. Cette montée en puissance nécessite non seulement la construction de nouvelles installations, mais surtout l'optimisation drastique des performances des unités existantes et futures.
Cependant, la méthanisation en voie liquide demeure un procédé biologique complexe impliquant des consortia microbiens dans la dégradation anaérobie de matière organique. Les installations actuelles souffrent d'instabilités chroniques qui limitent considérablement leur rentabilité économique. Les taux de dysfonctionnement observés dans le secteur révèlent l'ampleur du problème : environ 30% des installations connaissent des arrêts non planifiés chaque année, entraînant des pertes de production significatives. Les rendements énergétiques mesurés sur le parc installé se situent généralement entre 60% et 75% du potentiel théorique, illustrant les marges d'amélioration considérables.
Ces limitations trouvent leur origine dans une compréhension encore partielle des mécanismes biologiques régissant le processus de méthanisation. La dégradation anaérobie implique quatre étapes biologiques séquentielles, chacune catalysée par des consortia microbiens spécifiques (Batstone et al., 2002). L'étape d'hydrolyse constitue généralement l'étape limitante du procédé, particulièrement pour les substrats complexes riches en lignocellulose, protéines récalcitrantes ou lipides à longues chaînes. Face à cette limitation, le prétraitement enzymatique des substrats avant ou pendant l'alimentation du digesteur représente une stratégie prometteuse pour améliorer significativement les performances de méthanisation.
L'ajout d'enzymes exogènes, notamment des cellulases pour la dégradation de la cellulose, des protéases pour l'hydrolyse des protéines et des lipases pour la décomposition des lipides, permet d'accélérer l'hydrolyse des macromolécules et d'augmenter la biodisponibilité des substrats pour les populations microbiennes. Des études ont démontré des augmentations de production de biogaz de 10% à 40% selon les substrats et les cocktails enzymatiques utilisés (Parawira et al., 2005). Cependant, l'efficacité du prétraitement enzymatique dépend de multiples facteurs interdépendants : type et dosage d'enzymes adaptés à la composition spécifique des substrats, conditions opératoires (pH, température, durée de contact), caractéristiques physico-chimiques des substrats (biodégradabilité, structure cristalline, degré de lignification), et interactions complexes avec les populations microbiennes du digesteur. L'absence d'outils de pilotage prédictif intégrant l'étape de prétraitement enzymatique empêche les opérateurs d'optimiser cette stratégie prometteuse. Les décisions sont prises sur la base d'essais-erreurs coûteux, sans vision prédictive des conséquences, conduisant soit à des sous-dosages par crainte des coûts, soit à des surdosages inutiles (Jiménez et al., 2015).
Le développement de jumeaux numériques intégrant explicitement l'étape de prétraitement enzymatique représente une opportunité de rupture pour transformer radicalement le pilotage des installations de méthanisation. Un jumeau numérique, réplique virtuelle d'une installation physique continuellement alimentée par données en temps réel, permettrait de simuler l'impact du prétraitement enzymatique sur le comportement du procédé, optimiser les paramètres en fonction des substrats entrants et de l'état du digesteur, prédire les gains de production selon différents scenarii avec analyse coût-bénéfice dynamique, et adapter les stratégies de prétraitement aux spécificités de chaque installation en apprenant continuellement. La littérature scientifique récente confirme que l'intégration explicite du prétraitement enzymatique dans les modèles de méthanisation constitue un verrou scientifique majeur et très peu d'études sont disponibles sur le sujet. Les modèles déterministes classiques (ADM1, AM2) ne prennent pas en compte l'étape de prétraitement ou la considèrent de manière simplifiée (Batstone et al., 2002). C'est ici que l'intelligence artificielle, et particulièrement le deep learning, offre un potentiel considérable (Oladele et al., 2024). Les réseaux de neurones profonds peuvent apprendre à prédire l'efficacité du prétraitement enzymatique et son impact sur la production de biogaz à partir de l'historique du procédé, sans nécessiter une connaissance exhaustive des mécanismes biochimiques sous-jacents. Le couplage entre modèles déterministes enrichis et deep learning dans une architecture hybride permettrait de combiner la robustesse et l'interprétabilité des approches mécanistes avec la capacité d'adaptation des approches d'apprentissage automatique (Nasruddin et al., 2025).

Les exploitants d'installations de méthanisation font face à des enjeux techniques et économiques considérables qui menacent la viabilité économique de nombreux projets. Le modèle économique repose sur un équilibre fragile entre investissements initiaux élevés, coûts opérationnels significatifs (substrats, maintenance, personnel), et revenus tirés de la vente d'énergie. Les tarifs de rachat attractifs sont appelés à disparaître pour laisser place à des contrats de vente de biométhane en gré à gré, rendant l'optimisation des rendements essentielle pour assurer la rentabilité. Des études de benchmarking menées sur plusieurs centaines d'installations européennes montrent que seulement 40% des unités atteignent leurs objectifs de production, tandis que 25% présentent des dysfonctionnements récurrents compromettant leur équilibre économique. Les causes de sous-performance sont multiples : dimensionnement inadapté, variabilité excessive des substrats, pilotage sous-optimal, manque de compétences techniques des opérateurs, et surtout absence d'outils permettant d'anticiper et de prévenir les instabilités du procédé biologique (Madsen et al., 2011).
Les opérateurs s'appuient actuellement sur un nombre limité d'indicateurs macroscopiques : production volumique de biogaz, composition du biogaz (teneur en CH), pH, température, et concentration en acides gras volatils (AGV). Cette approche réactive présente plusieurs limitations majeures. Les indicateurs macroscopiques sont des variables de sortie reflétant l'état global avec un retard temporel significatif : lorsqu'une accumulation d'AGV est détectée, le déséquilibre est déjà installé depuis plusieurs jours. Ces indicateurs ne renseignent pas sur l'état physiologique des populations microbiennes et leur capacité à faire face aux variations. Les ajustements des paramètres opératoires sont décidés empiriquement, sans optimisation systématique, conduisant généralement à un fonctionnement conservateur en sous-régime. Le pilotage actuel ne permet pas d'adapter finement les conditions aux variations de composition des substrats. Enfin, en cas de dysfonctionnement, les actions correctives standardisées peuvent prolonger la phase de récupération sur plusieurs semaines, générant des pertes économiques substantielles.
L'objectif scientifique de cette thèse consiste à développer une version améliorée du modèle AM2 intégrant explicitement la dynamique de l'activité enzymatique des populations microbiennes impliquées dans l'étape de prétraitement.
Objectif 1 : Architecture hybride optimale - Concevoir une architecture innovante permettant un couplage efficace entre le modèle AM2 enrichi et des réseaux de neurones profonds. Trois stratégies de couplage seront explorées et évaluées : approche en cascade (le réseau de neurones prédit les paramètres cinétiques qui alimentent le modèle déterministe), approche en parallèle (les deux composantes produisent des prédictions indépendantes fusionnées), et approche intégrée (le réseau de neurones est directement incorporé dans la structure du modèle déterministe). La sélection s'appuiera sur des critères de performance prédictive, stabilité numérique, efficacité computationnelle, et interprétabilité.
Objectif 2 : Algorithmes de calibration temps réel - Développer des algorithmes robustes permettant d'ajuster automatiquement les paramètres du modèle hybride en fonction des mesures en temps réel. Ces algorithmes devront assimiler continuellement les données issues des capteurs, identifier les dérives ou anomalies, calibrer dynamiquement les paramètres pour maintenir la précision prédictive, fournir des indicateurs de confiance sur les prédictions, et garantir la cohérence physique des paramètres ajustés. Plusieurs approches seront évaluées : filtrage stochastique, optimisation en ligne, et apprentissage par renforcement.
Objectif 3 : Validation rigoureuse en conditions opérationnelles - La validation du jumeau numérique développé représente l'aboutissement du projet. Cette validation s'articulera autour de plusieurs phases : validation rétrospective sur données historiques d'installations existantes, validation prospective en conditions de monitoring passif (sans intervention sur le pilotage), validation en boucle fermée avec pilotage automatique sur installation pilote, et évaluation de l'acceptabilité par les opérateurs industriels. Des protocoles expérimentaux rigoureux seront définis, incluant des métriques de performance quantitatives (précision prédictive, anticipation des dysfonctionnements, gain de production énergétique) et qualitatives (facilité d'utilisation, confiance des opérateurs).
Ce projet s'inscrit à l'interface entre sciences du génie des procédés, microbiologie environnementale, modélisation mathématique et intelligence artificielle. L'approche envisagée s'appuie sur une méthodologie itérative associant développements théoriques, implémentations numériques, et validations expérimentales. Le socle du jumeau numérique reposera sur le modèle AM2, largement éprouvé pour la méthanisation, qui sera enrichi par la modélisation de l'activité enzymatique durant l'étape de prétraitement. Contrairement aux approches classiques considérant les paramètres cinétiques comme constants, l'activité enzymatique de l'étape de prétraitement sera modélisée comme une variable d'état dynamique, évoluant en fonction des conditions opératoires et de l'historique du procédé. La composante deep learning du modèle hybride s'appuiera sur des architectures de réseaux de neurones récurrents (LSTM ou GRU) particulièrement adaptées pour capturer les dépendances temporelles dans les séries chronologiques de données de procédés. Des mécanismes d'attention pourront être intégrés pour permettre au réseau d'identifier automatiquement les variables et horizons temporels les plus pertinents pour la prédiction.

La méthodologie proposée s'articule autour du développement d'un modèle hybride structuré en trois couches fonctionnelles interdépendantes.
Couche déterministe enrichie - Le modèle AM2 classique sera étendu pour intégrer explicitement l'activité enzymatique. Le modèle AM2 standard décrit la méthanisation à travers deux étapes biologiques principales (acidogenèse et méthanogenèse) et inclut les équations décrivant la croissance des biomasses, la consommation de substrat, la production d'intermédiaires (AGV) et de méthane, ainsi que les équilibres physico-chimiques (pH, inhibitions). L'enrichissement consistera à remplacer les coefficients cinétiques constants par des fonctions dépendant des paramètres opératoires et des substrats considérés.
Couche d'apprentissage profond - Des réseaux de neurones récurrents (LSTM - Long Short-Term Memory) seront développés pour prédire l'évolution des paramètres cinétiques clés, en particulier les coefficients régulant la dynamique de l'activité enzymatique de prétraitement et la dynamique des étapes d'acidogénèse et de méthanogénèse. L'architecture LSTM a été retenue pour sa capacité à capturer les dépendances temporelles à long terme, essentielle pour modéliser des processus biologiques présentant des temps de réponse variables. Les entrées du réseau LSTM comprendront les séries temporelles de variables opératoires mesurées (débit d'alimentation, température, pH, production de biogaz), les prédictions du modèle déterministe aux pas de temps précédents, et des descripteurs statistiques de l'historique récent du procédé (moyennes mobiles, variances, tendances). Les sorties du réseau LSTM fourniront des corrections aux paramètres cinétiques du modèle déterministe, sous la forme de coefficients multiplicateurs assurant la cohérence physique (positivité, bornage).
Couche de calibration et monitoring - Cette couche orchestrera l'interaction entre les deux composantes précédentes et les mesures en temps réel. À chaque pas de temps, l'algorithme collectera les nouvelles mesures issues des capteurs de l'installation, comparera ces mesures aux prédictions du modèle hybride, calculera des indicateurs de confiance sur les prédictions, ajustera si nécessaire les paramètres du modèle via une procédure d'optimisation, et mettra à jour le modèle pour la prédiction du pas de temps suivant.

La constitution de jeux de données de qualité représente un enjeu majeur pour l'entraînement et la validation du modèle hybride.

Exploitation de données industrielles - Le partenaire industriel fournira des données historiques long-terme (minimum 2 ans) reflétant la diversité des conditions opérationnelles réelles : variations saisonnières des substrats, événements de dysfonctionnement, interventions de maintenance, et différentes stratégies de pilotage testées. Un travail de prétraitement et de nettoyage de ces données sera nécessaire (détection d'outliers, imputation de données manquantes, synchronisation temporelle). Des techniques de data augmentation pourront être appliquées pour enrichir artificiellement les jeux de données dans les zones peu représentées de l'espace opérationnel.

L'entraînement du modèle hybride suivra une procédure séquentielle en trois phases :
Phase 1 - Calibration du modèle déterministe enrichi - Les paramètres du modèle AM2 enrichi (coefficients de la dynamique enzymatique du prétraitement, paramètres cinétiques) seront identifiés par optimisation sur les données expérimentales issues des essais de laboratoire précédemment réalisés entre les partenaires du projet. Cette calibration utilisera des algorithmes d'optimisation globale (algorithmes génétiques, essaims particulaires) capables d'explorer efficacement l'espace des paramètres malgré sa haute dimensionnalité. La fonction objectif à minimiser combinera l'erreur de prédiction sur plusieurs variables de sortie (production de biogaz, concentrations en AGV, pH) pondérées selon leur importance opérationnelle et leur fiabilité de mesure.
Phase 2 - Entraînement du composant deep learning - Le réseau LSTM sera entraîné sur les données d'installation industrielle en utilisant une approche de prédiction multi-horizons. À chaque instant t, le réseau apprendra à prédire conjointement les corrections à apporter aux paramètres cinétiques aux horizons t+1, t+2, ..., t+h (avec h typiquement compris entre 1 heure et 24 heures). Cette approche multi-horizons permettra au réseau d'apprendre différentes échelles temporelles de dynamique. La fonction de perte sera une combinaison pondérée des erreurs de prédiction aux différents horizons, avec un poids décroissant pour les horizons lointains reflétant l'incertitude croissante des prédictions. Des techniques de régularisation seront appliquées pour prévenir le surapprentissage. La validation croisée temporelle (temporal cross-validation) sera privilégiée, respectant la structure séquentielle des données.
Phase 3 - Validation intégrée du jumeau numérique - Le modèle hybride complet sera validé sur des jeux de données indépendants n'ayant pas été utilisés lors des phases de calibration et d'entraînement. Plusieurs scénarios de validation seront considérés : validation sur nouvelles données de l'installation industrielle (test de robustesse), validation sur données d'installations industrielles (test de généralisabilité), et validation sur périodes incluant des événements atypiques (test de résilience). Des métriques de performance diversifiées seront calculées : erreur quadratique moyenne (RMSE), coefficient de détermination (R²), erreur absolue moyenne en pourcentage (MAPE), capacité d'anticipation des dysfonctionnements (taux de vrais/faux positifs pour la détection d'anomalies), et gain de production énergétique lors d'utilisation en boucle fermée.

Le jumeau numérique sera développé en visant explicitement son déploiement opérationnel sur le site industriel de la SAS Chemin du Roi. Le cas d'application ciblé est la méthanisation agricole valorisant des effluents d'élevage et résidus de cultures, mais le cadre méthodologique développé sera transposable à d'autres configurations. La stratégie de déploiement privilégiera une approche progressive en plusieurs étapes, minimisant les risques et favorisant l'acceptabilité par les opérateurs. Une première phase de monitoring passif (3 mois) permettra de valider les prédictions du jumeau numérique sans intervention sur le pilotage existant, rassurant ainsi les opérateurs et permettant d'ajuster les algorithmes. Une seconde phase de pilotage assisté (3 mois) proposera des recommandations d'ajustement des paramètres opératoires, la décision finale restant à la main de l'opérateur. Les retours d'expérience permettront d'affiner les recommandations et de construire la confiance. Enfin, après validation de la fiabilité du système, un mode de pilotage automatique en boucle fermée pourra être activé progressivement, avec maintien d'une supervision humaine et possibilité de repli vers le mode manuel à tout moment.
L'architecture logicielle du jumeau numérique sera développée selon des standards industriels, avec une interface homme-machine intuitive permettant la visualisation en temps réel de l'état du procédé, des prédictions à différents horizons temporels (1h, 6h, 24h), des alertes précoces en cas de dérive détectée (niveau de risque, causes probables), et des recommandations d'actions correctives hiérarchisées (impact attendu, urgence, coût).

Hypothèses de travail :
Hypothèse 1 : L'enrichissement du modèle AM2 par l'intégration explicite de la dynamique du prétraitement enzymatique et des autres paramètres cinétiques améliore significativement sa capacité prédictive par rapport au modèle standard à paramètres constants.
Hypothèse 2 : Les réseaux de neurones LSTM sont capables d'apprendre les relations complexes et non-linéaires entre conditions opératoires, historique du procédé, et évolution des paramètres cinétiques.
Hypothèse 3 : Le couplage entre modèle déterministe enrichi et composant deep learning dans une architecture hybride permet d'atteindre une précision prédictive supérieure à celle obtenue par chacune des deux approches utilisées séparément.
Hypothèse 4 : Les algorithmes de calibration en temps réel basés sur l'apprentissage continu permettent au jumeau numérique de maintenir sa précision prédictive lors de dérives long-terme du procédé ou de changements de régime opératoire.
Hypothèse 5 : Le jumeau numérique hybride développé est capable d'anticiper les dysfonctionnements du procédé (accumulation d'AGV, inhibition, effondrement de production) avec un horizon temporel suffisant (6 à 24 heures) pour permettre des actions correctives préventives.
Hypothèse 6 : L'utilisation du jumeau numérique en mode pilotage automatique permet d'augmenter la production énergétique de l'installation de 10 à 20% par rapport à un pilotage conventionnel, tout en réduisant les risques de dysfonctionnement.
Chacune de ces hypothèses sera évaluée rigoureusement lors des phases expérimentales, avec des protocoles de validation quantitatifs permettant de quantifier les gains apportés par chaque innovation méthodologique.

Le profil recherché

Le candidat idéal est titulaire d'un diplôme d'ingénieur ou d'un master (Bac +5) dans les domaines de la data science, de l'intelligence artificielle, de l'informatique scientifique ou des systèmes complexes. Une solide formation mathématique (analyse, probabilités, optimisation) est indispensable pour appréhender les aspects de modélisation cinétique et d'apprentissage automatique du projet.
Le candidat devra maîtriser les frameworks de deep learning (TensorFlow, PyTorch) et posséder une expérience avérée dans le développement et l'entraînement de réseaux de neurones récurrents, notamment les architectures LSTM/GRU adaptées aux données temporelles. Une bonne connaissance des bibliothèques scientifiques Python (NumPy, Pandas, SciPy, Scikit-Learn) est attendue.
Une expérience en modélisation de systèmes dynamiques notamment via des modèles compartimentaux ou des équations différentielles ordinaires et en calibration de paramètres par des méthodes d'optimisation (algorithmes génétiques, essaims particulaires) sera fortement valorisée. Une sensibilité aux bioprocédés ou aux systèmes biologiques complexes constitue un atout supplémentaire.
Des compétences en développement logiciel (Python, Flask, SQL/NoSQL) et en déploiement applicatif (Docker, cloud) seront appréciées pour le développement de l'interface homme-machine et l'intégration du jumeau numérique dans les systèmes de contrôle-commande industriels.
Enfin, le candidat devra faire preuve d'autonomie, de rigueur scientifique et d'un bon sens de la communication technique, en français comme en anglais, afin de valoriser les travaux dans des revues et conférences internationales.

Postuler sur le site du recruteur

L’emploi par métier dans le domaine Mode à Compiègne