8 - Calibration du modèle

La modélisation épidémiologique et son usage pour gérer la COVID-19

Éclairage sur les modèles mécanistes par l'équipe DYNAMO

Au cours des prochaines semaines, nous présenterons quelques éléments clés de la modélisation en épidémiologie au travers d'articles courts à vocation pédagogique. Ces articles vous aideront à mieux comprendre et décrypter les hypothèses sur lesquelles reposent les modèles épidémiologiques beaucoup utilisés en ce moment, et comment ces hypothèses peuvent impacter les prédictions de la propagation des pathogènes, notamment du SARS-CoV-2. L’objectif est de découvrir les avantages et les limites de la modélisation mécaniste, approche au centre des travaux de l’équipe DYNAMO. Les exemples de modèles seront inspirés des modèles utilisés en ces temps de crise, mais parfois simplifiés pour les rendre accessibles.

#8 - Le lien aux données : comment les modèles sont-ils calibrés ?

La pertinence des prédictions des modèles épidémiologiques est souvent limitée par l’incertitude de leurs valeurs de paramètres. Mais comment estime-t-on ces paramètres ? Et comment définit-on le démarrage de l’épidémie ?

Différentes sources d’informations sont utilisables :

  • la littérature scientifique,
  • les données expérimentales et historiques,
  • les données de suivis de la dynamique épidémique en cours (nombre d’individus testés positif, nombre d’individus développant des signes cliniques graves, nombre de décès dus à la maladie). Depuis le début de l’épidémie de COVID-19, l’ensemble de ces informations sont collectées et centralisées.

Les processus observables (telle que la durée de séjour dans l’état symptomatique ou à l’hôpital) sont renseignés facilement. Les paramètres plus incertains, souvent non observables (taux de transmission, durée de la latence), doivent être estimés. Pour cela, de nombreuses méthodes d’inférence existent, chacune avec leurs avantages et inconvénients. Les méthodes d'inférence maximisant la vraisemblance du modèle sont souvent utilisées (pour exemple, voir ce lien). Cependant, la vraisemblance d’un modèle ne peut pas toujours être évaluée, notamment lorsque le modèle est dynamique, avec un grand nombre de variables, et stochastique, ou si les données disponibles sont spatiotemporelles, incomplètes, censurées, ou imparfaites. Des méthodes dites sans-vraisemblance ont été développées pour lever ce problème méthodologique.

Bien que dans notre exemple, la maximisation de la vraisemblance soit possible, faisons appel aux méthodes sans vraisemblance pour en expliciter l’usage. Ces méthodes sont privilégiées dans l’équipe DYNAMO car les systèmes épidémiologiques que nous étudions habituellement sont complexes. Nous avons utilisé ici la méthode ABC-SMC (Approximate Bayesian Compuation – Sequential Monte Carlo). Les méthodes ABC sont assez intuitives : (1) des jeux de paramètres sont générés en tirant les valeurs des paramètres dans des distributions a priori ; (2) une simulation du modèle est réalisée par jeu de paramètres et comparée aux données réelles via des statistiques résumées (i.e. une représentation simplifiée des données) ; (3) les jeux de paramètres retenus présentent des distances entre statistiques résumées simulées et observées inférieures au seuil de tolérance fixé, plus l’écart entre les deux étant petit, plus le jeu de paramètres étant probable ; (4) on estime alors les valeurs des paramètres (distributions a posteriori). Un inconvénient de ces méthodes est le très grand nombre de simulations à réaliser, induisant des coûts de calculs conséquents.

Reprenons le modèle de l’article #6 avec confinement à partir du 16 mars, et estimons 4 de ses paramètres : β (le taux de transmission), σ (le facteur multiplicateur réduisant l’excrétion des Ip, Ia, Ips), 1/ε (la durée moyenne de la latence), et la date d’introduction (qui doit être vue ici comme la date d’installation pérenne de l’infection dans la population). Les données utilisées correspondent aux données hospitalières de l'épidémie de COVID-19, plus particulièrement au nombre de décès au cours du temps, représenté dans le modèle par l’état M. La quantité des données disponibles peut impacter les estimations, surtout s’il y a peu de données. Pour l’exemple, nous avons estimé les paramètres en mobilisant les données disponibles à 3 dates : une semaine avant le confinement (t = 68 jours), la veille du confinement (t = 75 jours), et une semaine après le confinement (t = 82 jours). Les données postérieures n’ont pas été utilisées. Ces scénarios conduisent à des valeurs estimées des paramètres suffisamment différentes pour prédire des dynamiques épidémiques contrastées, illustrant clairement la nécessité d’actualiser très régulièrement les modèles, surtout s’ils sont utilisés à des fins de gestion sanitaire.

Valeurs des paramètres estimés (mode et intervalle de confiance 90%)

Scénario

β

σ

1/ε

date intro.

t = 68

1.89 [1.09 ; 2.76]

0.48 [0.35 ; 0.79]

3.3 [1.2 ; 4.7]

34 [33 ; 35]

t = 75

1.48 [0.77 ; 2.33]

0.43 [0.12 ; 0.84]

3.3 [1.0 ; 4.9]

19 [16 ; 21]

t = 82

1.48 [0.85 ; 2.40]

0.47 [0.17 ; 0.85]

3.3 [1.1 ; 4.8]

22 [20 ; 24]

Outre les paramètres du modèle, les conditions initiales du modèle peuvent également être estimées, mettant en avant dans notre exemple une fixation de l’infection dans la population environ un mois avant les premiers décès.

Distribution de la date d'introduction du virus, estimée en fonction de 3 jeux de données

Distributions a posteriori de la date d’installation de l’infection selon la quantité de données utilisable.
Utiliser les données disponibles au 10 mars (en bleu) donne une estimation de la date d'introduction au 5 février (t=34 jours). Avec plus de données disponibles (en vert puis jaune), la date d'introduction est estimée aux alentours du 24 janvier (t=22 jours).

Nombre de nouveaux décès par jour
Nombre de décès cumulés par jour

Prédictions du modèle en nombre de nouveaux décès (à gauche) et en nombre cumulé de décès (à droite), selon la quantité de données utilisables pour estimer les paramètres du modèle. Les autres paramètres et conditions de simulation sont inchangés par rapport à l’article #6.
En utilisant les données disponibles une semaine après le confinement (t=82 jours, en jaune) pour estimer les paramètres d'entrée du modèle, les simulations donnent un résultat plus proche des données observées que dans les autres cas (où il y a moins de données disponibles).

Nous espérons que cet article vous aura convaincu qu’il est primordial de réconcilier modèles et données d’observation ! Actualiser les modèles en temps réel lorsque de nouveaux cas surviennent est un challenge nécessaire, surtout en début d’épidémie, pour améliorer la qualité prédictive des modèles et donc la confiance que l’on peut avoir dans leurs prédictions. Cependant, les méthodes d’inférence ne sont pas infaillibles. Les résultats dépendent aussi des hypothèses (structure du modèle), du type et de la qualité des données, … De plus, plus il y a de paramètres à estimer, plus cela devient complexe. Calibrer un modèle est un processus pouvant être très long, et qui doit être couplé à des analyses pour vérifier que les données disponibles permettent réellement d’estimer les paramètres voulus.

L’article #9 prendra un peu de recul sur les articles précédents en discutant de pourquoi (et comment) mobiliser une approche de modélisation mécaniste en épidémiologie.