10 - Analyse d'un modèle

La modélisation épidémiologique et son usage pour gérer la COVID-19

Éclairage sur les modèles mécanistes par l'équipe DYNAMO

Au cours des prochaines semaines, nous présenterons quelques éléments clés de la modélisation en épidémiologie au travers d'articles courts à vocation pédagogique. Ces articles vous aideront à mieux comprendre et décrypter les hypothèses sur lesquelles reposent les modèles épidémiologiques beaucoup utilisés en ce moment, et comment ces hypothèses peuvent impacter les prédictions de la propagation des pathogènes, notamment du SARS-CoV-2. L’objectif est de découvrir les avantages et les limites de la modélisation mécaniste, approche au centre des travaux de l’équipe DYNAMO. Les exemples de modèles seront inspirés des modèles utilisés en ces temps de crise, mais parfois simplifiés pour les rendre accessibles.

#10 – Pourquoi et comment analyser le comportement d’un modèle ?

Avant d’être utilisé pour évaluer le devenir du système modélisé sous certaines conditions (scénarios de gestion, de changement de pratiques, de changement climatique...), un modèle doit être analysé. Pour les modèles de simulation, ces analyses sont numériques. Elles visent essentiellement à : (1) quantifier la fiabilité des prédictions du modèle en fonction des différentes sources d’incertitude possibles (propagation des incertitudes ; figure de gauche) ; (2) comprendre le comportement du modèle, notamment l’impact de variations de ses entrées sur la variation de ses sorties (i.e. ses prédictions) (sensibilité du modèle ; figure de droite).

Les sources d'incertitudes (en jaune) dans le processus de modélisation
La variabilité des sorties doit être évaluée en faisant varier les entrées

L’analyse d’incertitude repose sur l’identification des sources d’incertitude (en jaune dans la figure) tout le long du processus de modélisation (en bleu), puis leur quantification et propagation, de manière à évaluer la fiabilité des prédictions du modèle numérique.

L’analyse de la sensibilité du modèle, qui relie la variabilité des sorties du modèle avec celle de ses entrées, vise à répondre à 4 questions :

  • Le modèle produit-il des prédictions pertinentes ? Il s’agit de vérifier si les prédictions sont cohérentes avec les observations potentiellement disponibles, et avec le comportement attendu du système.
  • Quels facteurs d’entrée contribuent le plus à la variabilité des sorties ? Identifier ces facteurs permet de mettre à jour le besoin de nouvelles connaissances, voire d’identifier de potentiels points de contrôle du système.
  • Quels facteurs contribuent le moins à la variabilité des sorties ? Cela permet notamment de fixer arbitrairement la valeur de ces facteurs dans leur intervalle de variation sans affecter les résultats, voire de simplifier le modèle.
  • Quels facteurs interagissent entre eux ? Le comportement du modèle peut en effet différer selon qu’un ou plusieurs facteurs sont modifiés. Les facteurs interagissant devront être étudiés / observés ensemble.

Différentes méthodes d’analyse de sensibilité peuvent être utilisées en fonction de la complexité du modèle (nombre de paramètres, de variables d’état, variation monotone ou non des sorties…) et ses performances de simulation (nombre de scénarios explorables numériquement) :

Méthodes d'analyse de sensibilité selon la complexité du modèle et le nombre de répétitions nécessaires à sa bonne utilisation
  • Les méthodes de criblage sont relativement basiques et explorent les variations des sorties à la variation des entrées une par une. Elles ne permettent donc pas d’évaluer l’impact d’interactions entre entrées. En contrepartie, elles sont peu coûteuses d’un point de vue numérique.
  • Les méthodes d’analyse globale basées sur la variance explorent l’impact de variations de plusieurs entrées avec la démarche suivante :
  1. Choisir les facteurs d’entrée (ou catégories de facteurs) et les sorties à considérer.
  2. Définir la gamme de variation des facteurs d’entrée (valeurs minimales, maximales, les plus probables).
  3. Définir le plan d’expérience ou d’échantillonnage. L’échantillonnage doit être fait dans l’espace des valeurs possibles, avec des valeurs discrètes (plans factoriels complets ou fractionnaires (FFD)) ou des distributions de probabilités (Fourier Amplitude Sensitivity Test (FAST), décomposition de Sobol, etc.).
  4. Simuler.
  5. Analyser et interpréter les résultats, en regardant la gamme de variation et la distribution des sorties simulées pour n’interpréter que ce qui est interprétable, en calculant les indices de sensibilité (e.g. avec des méthodes basées sur une décomposition de la variance) et en hiérarchisant les facteurs influents.

Quelques questions restent cependant en suspens :

  • Comment analyser la sensibilité d’un modèle stochastique ? Quelle est la place de chaque répétition stochastique dans le plan d’échantillonnage ?
  • Comment analyser la variation de sorties de modèle temporelles (e.g. courbe épidémique) ou spatiales (e.g. localisation de cluster de cas) ? Pour l’heure, les analyses se focalisent souvent sur des données simulées agrégées (date du pic épidémique, nombre cumulé de cas sur une période, analyse de certains pixels représentatifs, etc.), ce qui conduit à une grande perte d’information sur le comportement du modèle.

Dans l'article #11, nous illustrerons une telle analyse de sensibilité avec un exemple pour le modèle de propagation de la COVID19.