SciELO - Scientific Electronic Library Online

 
vol.47 número1Determinantes de la Productividad Laboral para las Empresas Ecuatorianas en el Periodo 2009-2014 índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Revista Politécnica

versão On-line ISSN 2477-8990versão impressa ISSN 1390-0129

Rev Politéc. (Quito) vol.47 no.1 Quito Fev./Abr. 2021

https://doi.org/10.33333/rp.v47n1.01 

Articles

Estimación de Parámetros para un Modelo del SARS-CoV-2 en Ecuador en Presencia de Incertidumbre

Parameter Estimation for SARS-CoV-2 Model in Ecuador in Presence of Uncertainty

1Escuela Politécnica Nacional, Centro de Modelización Matemática en Áreas Clave para el Desarrollo, Quito, Ecuador


Resumen:

En este artículo presentamos el modelo matemático de tipo compartimental con individuos asintomáticos, utilizado por el Centro de Modelización Matemática (MODEMAT) para estudiar la propagación del SARS-CoV-2 en Ecuador, así como el esquema variacional de tipo bayesiano desarrollado para estimar los diferentes parámetros del modelo, en presencia de incertidumbre de los datos observados. Esta estimación permite realizar actualizaciones periódicas del número efectivo de reproducción, así como proyecciones a corto plazo, mediante métodos de ensamble de la incidencia de la epidemia.

Palabras claves: Estimación de parámetros; SARS-CoV-2; Problemas inversos; Asimilación de datos; Enfoque bayesiano

Abstract:

In this article we present the mathematical compartmental SARS-CoV-2 model, with asymptomatic patients, used by the Research Center on Mathematical Modelling (MODEMAT) to study the spread of the virus in Ecuador, as well as the developed Bayesian variational approach to estimate the model parameters, under uncertainty of the observed data. Thanks to this framework, we are able to estimate periodically the effective reproduction number and carry out short-term forecasts, using an ensemble method, of the incidence of the epidemic.

Keywords: Parameter estimation; SARS-CoV-2; Inverse problems; Data assimilation; Bayesian approach

1. INTRODUCCIÓN

Uno de los objetivos principales del Centro de Modelización Matemática (MODEMAT), en el contexto de la pandemia del coronavirus, consiste en monitorear, a través del uso de modelos matemáticos, la expansión del virus SARS-CoV-2, y los casos de la enfermedad COVID-19 provocada por este patógeno en Ecuador. Para esto, utilizamos un modelo epidemiológico compartimental que incluye en su dinámica a los individuos infecciosos asintomáticos (ver detalles en Li et al (2020); Wu et al (2020); Verity et al (2020)), y estimamos periódicamente los diferentes parámetros del mismo, así como el número de reproducción efectivo de la epidemia.

La principal fuente de información para realizar dichas estimaciones son las estadísticas oficiales de casos confirmados reportados por el Ministerio de Salud Pública de Ecuador, las mismas que presentan un alto grado de incertidumbre, no sólo por el margen de error de las pruebas de laboratorio o la limitación de la cantidad de tests que se realizan, sino principalmente por los constantes cambios metodológicos (no siempre coordinados) que han implementado los diversos organismos oficiales para la recolección y el reporte de los casos.

En un escenario simplificado, el proceso de estimación de parámetros se realiza mediante técnicas de ajuste, las cuales consisten en construir una función matemática que se ajusta mejor a una serie particular de datos. En este contexto, el mejor ajuste implica que la distancia entre la curva y los datos, ubicados como puntos en un espacio predeterminado, debe ser minimizada, alcanzando un óptimo aproximado.

De manera general, la técnica de mínimos cuadrados no lineales consiste en identificar los parámetros que minimizan la suma de las diferencias al cuadrado entre los datos observados y el modelo no lineal utilizado. Así, supongamos que los parámetros identificados están dados por Θ:=(θ1,θ2,,θm) y los datos observados por (y1,y2,,yn), los cuales representan una serie de tiempo en los pasos temporales ti en los cuales se realizaron las observaciones. Además, supongamos que la solución del modelo está dada por una función no lineal genérica f(ti,Θ). El problema, a grandes rasgos, consiste entonces en hallar el conjunto de parámetros Θ^ dado por

Θ^:=arg mini=1n(f(ti,Θ)-yi)2,

donde n es el número de datos disponibles para hacer la inferencia. Hallada la solución de este problema, podemos considerar que la solución f(ti,Θ^) brinda el modelo mejor ajustado a la serie temporal ti, de acuerdo al criterio de mínimos cuadrados (ver, por ejemplo, Chowell (2007)).

Sin embargo, una característica central en la modelización de epidemias y transmisión de enfermedades es que éstos son procesos que obedecen a una cierta dinámica epidemiológica de propagación. El contagio de una persona susceptible se entiende como un encuentro aleatorio con una persona infecciosa, sujeto a varias contingencias, como por ejemplo, la duración o la intensidad de dicho encuentro. De igual manera, las personas ya contagiadas pasan por un periodo de incubación del virus, para luego formar parte de los compartimentos de individuos infecciosos. Todo esto se modeliza a través de un sistema de ecuaciones diferenciales, que debe ser tomado en cuenta a la hora de ajustar datos observados. Así, la principal debilidad del esquema de ajuste de curvas descrito anteriormente es que no necesariamente toma en cuenta dicha dinámica de manera explícita.

Más aún, un proceso de ajuste de mínimos cuadrados de los datos observados puede resultar inadecuado en presencia de incertidumbre en las observaciones. Como se mencionó previamente, en el caso ecuatoriano dicha incertidumbre es sumamente alta en comparación con las estadísticas recogidas por agencias gubernamentales de otros países. Consecuentemente, un proceso de ajuste y estimación de parámetros en el caso ecuatoriano debe tomar en cuenta la incertidumbre como un elemento constitutivo del problema a resolverse.

En ese sentido, la propuesta que presentamos en este artículo consiste en considerar a los parámetros y la solución del modelo epidemiológico del SARS-CoV-2 como variables aleatorias con una cierta distribución de probabilidad y no como valores constantes. Con este cambio en la hipótesis de trabajo, podemos adoptar el paradigma Bayesiano para problemas inversos y estimar los parámetros de manera robusta, buscando minimizar la probabilidad condicional a-posteriori de los parámetros, dadas las observaciones.

2. ESTIMACIÓN DE PARÁMETROS EN PRESENCIA DE INCERTIDUMBRE

Como mencionamos previamente, una de las principales limitantes de los métodos de ajuste es que no consideran en su construcción la incertidumbre en los datos a ser ajustados, lo cual puede tener efectos importantes en situaciones como la que se presenta actualmente en Ecuador, en relación a la evolución de la COVID-19. Para abordar tal dificultad, optamos por el paradigma bayesiano, con el cual podemos estudiar el problema de estimación de parámetros considerando su carácter intrínsecamente aleatorio.

2.1 Estimador de probabilidad máxima a posteriori

En la inferencia bayesiana, a diferencia de la estimación de máxima verosimilitud, se supone que los parámetros (coeficientes, condición inicial, etc.) son una variable aleatoria x con realizaciones en el espacio multivariable Rm, de la cual conocemos, a priori, su función de densidad de probabilidad p(x). Además, se asume que conocemos la función de densidad de probabilidad condicional (c.p.d.f. por sus siglas en inglés) de las observaciones y, considerando un conjunto de parámetros x dado. A esta función de densidad de probabilidad la denotamos por p(y|x).

La idea básica de este enfoque consiste en combinar la información de las dos funciones de densidad de probabilidad descritas, utilizando la fórmula de Bayes, con el objetivo de obtener una probabilidad a posteriori de los eventos. En este caso, se supone que tanto las observaciones, como la información de fondo (estimaciones previas de los parámetros), tienen errores distribuidos normalmente con matrices de covarianzaR yB, respectivamente. Por lo tanto, la función de densidad de probabilidad condicional de las observaciones viene dada por

p(y|x)=1(2π)n/2|R|1/2exp-12(y-H(x))TR-1(y-H(x)), (1)

y la función de densidad de probabilidad de los parámetros por

p(x)=1(2π)m/2|B|1/2exp-12(x-xb)TB-1(x-xb), (2)

donden es el número de datos disponibles para hacer la inferencia,m es el número de parámetros a estimar,xb representa el conocimiento a priori o histórico que se tiene del fenómeno, y H(x) es un operador que liga las características del fenómeno, en particular los parámetros del modelo, con las observaciones obtenidas del mismo. En general, este es un operador no lineal, el cual está relacionado con el fenómeno observado.

Usando el Teorema de Bayes se obtiene que la distribución de probabilidad a posteriori de un evento x, tomando en cuenta las observaciones y, está dada por

p(x|y)=p(y|x)p(x)p(y). (3)

Ahora, dado que nuestro objetivo es hallar el mejor “estimador Bayesiano” utilizando la aproximación del máximo a posteriori, se busca maximizar la distribución de probabilidad a posteriori dada por (3). Puesto que p(y) es la distribución de probabilidad marginal y no depende de x, obtenemos el siguiente problema de optimización a resolverse:

maxx   p(y|x)p(x). (4)

Aprovechando el hecho de que la función logarítmicaRtln(t) es monótonamente creciente y continua, se tiene que la solución del problema (4) es equivalente a maximizar el logaritmo natural de la función objetivo de este problema. Esto es, resolvemos el problema

maxx   ln(p(y|x))+ln(p(x)).

Finalmente, utilizando las funciones de densidad de probabilidad (1) y (2), obtenemos el problema de minimización equivalente

minx   12(yH(x))TR1(yH(x))+12(xxb)TB1(xxb), (5)

el cual constituye un balance robusto entre la información de fondo y los datos observados.

Las matrices B y R corresponden a las matrices de covarianza de los errores de fondo y de las observaciones, respectivamente. Las matrices de covarianza de los errores se utilizan para describir el impacto de los errores que se acumulan en el proceso de recolección de información. De forma más precisa, la matriz R de covarianza de errores de observación describe la desviación de los eventos observados de los eventos esperados. En palabras simples, esta matriz mide la validez de las mediciones frente a la evolución del fenómeno. La matriz B, por otro lado, describe la diferencia entre la estimación previa de los parámetros y los parámetros “verdaderos” del fenómeno. En el caso de la evolución de la COVID-19, esta matriz describe cuán confiable es el conocimiento que se tiene acerca de los parámetros de propagación del virus en el momento de iniciar el proceso de estimación.

El problema de optimización (5) guarda estrecha relación con la estimación de máxima verosimilitud de los parámetros del sistema, obtenida a través de filtros de Kalman clásicos. En ambos casos, las observaciones son consideradas en un solo instante de tiempo, las cuales son corregidas a través de lo que se conoce como interpolación óptima o, equivalentemente, la resolución del problema variacional (5).

2.2 Esquema variacional en el tiempo

En los casos en que las observaciones son tomadas en distintos instantes del tiempo, el esquema bayesiano descrito anteriormente necesita ser adaptado para dar cuenta de la evolución de un sistema, así como de la variación de la incertidumbre. Este tipo de problemas ha sido abordado desde los dos enfoques comentados previamente: filtros de Kalman y métodos variacionales (ver, por ejemplo, Asch et al (2016)). En el primero de ellos, se adapta la construcción del filtro a un problema que varía en el tiempo, obteniéndose los denominados filtros de Kalman extendidos, los cuales requieren la solución de las ecuaciones diferenciales de Riccati. En el caso variacional, en cambio, el problema es formulado como uno de control óptimo y su solución requiere generalmente del método adjunto.

En nuestro caso, el problema de propagación del SARS-CoV-2 está asociado a la solución del sistema de ecuaciones diferenciales que determinan la evolución de los compartimentos poblacionales utilizados en el modelo. En tal razón, consideramos, de manera general, un sistema de ecuaciones diferenciales del tipo

dudt=M(u,x,t),

donde M es un operador que determina la dinámica del proceso. Además, suponemos que las observaciones están dadas por

y=H(u,t)+ϵ,

donde H es un operador de observación, que depende del estado u y del tiempo t. Los datos medidos se expresan entonces como el estado observado más errores de observación, dados por ϵ.

La idea central detrás del proceso de estimación de parámetros dinámico es buscar un balance entre el conocimiento a priori que se tiene del fenómeno, lo que se conoce como el estado histórico o background, y el estado que ha sido observado o medido en el terreno. En el caso de los parámetros en la predicción de la evolución de la COVID-19 en el Ecuador, el estado histórico queda determinado por el conocimiento que se tiene del virus y su comportamiento, algo que ha sido bien establecido en estudios desarrollados, por ejemplo, en Li et al (2020). Por otro lado, el estado medido estaría dado por los resultados arrojados por la cifras nacionales que se obtienen por la toma de muestras, cifras de defunción, etc.

Extendiendo el problema (5), se busca entonces resolver el problema variacional

(6)

donde μ puede corresponder a la medida de Lebesgue en caso de considerar observaciones continuas o a la medida de conteo en caso de que las mediciones se obtengan en instantes puntuales del tiempo. Si, adicionalmente, el conjunto de parámetros consiste por una parte, en los coeficientes del modelo y por otra, en la condición inicial del mismo, el segundo término del funcional se puede dividir a su vez en dos, dando lugar al problema variacional

(7)

en el cual la matriz BΘ corresponde a la covarianza de errores de fondo de los coeficientes del modelo y P0b a la covarianza de errorres de fondo de la condición inicial, respectivamente.

Dado que los operadores M y H son operadores diferenciales continuos y no lineales, se introducen comúnmente, aproximaciones discretas de los mismos, dadas por matrices M y H, respectivamente. Este proceso de aproximación se realiza, por ejemplo, con la aplicación de métodos de resolución numérica como el método de Euler implícito para la variable temporal y el método de Newton para la variable espacial. Dada esta aproximación en un intervalo temporal, del cual tomamos una sucesión de instantes tk, con k=0,1,, se tiene una aproximación de la dinámica del fenómeno dada por:

uk+1=Mk+1(uk,xk), (8)

donde suponemos que no hay errores en el modelo. De la misma forma, consideramos que las observaciones están dadas por

yk=Hkuk+ϵk. (9)

Suponemos que en el instante inicial k=0 conocemos el estado histórico u0b y su matriz de covarianza P0b. Además, suponemos que los errores son no correlacionados con las observaciones en (9). Así, sabemos que una condición inicial u0 define una solución única del modelo xk+1 según (8). Con estos antecedentes, el problema variacional discretizado es el siguiente:

(10)

La solución de este problema consiste en el conjunto de parámetros del modelo que maximizan la probabilidad a posteriori, a partir de lo cual es posible hacer una estimación robusta de la evolución del fenómeno. En este problema, nótese que se consideran las observaciones en todo el período temporal para la correcta estimación de los parámetros.

Un elemento esencial en (10) son las matrices de covarianza de errores. Mientras que R puede construirse a partir de los errores de instrumentación y la cantidad de mediciones realizadas y BΘ puede incorporar varianzas de parámetros previamente estudiadas, la matriz P0b requiere de un tratamiento distinto. Esta matriz cuantifica de cierta manera la sensibilidad del problema con respecto a las condiciones iniciales, con lo cual se vuelve un elemento esencial para realizar pronósticos en modelos no lineales.

Una de las técnicas más utilizadas para actualizar la matriz P0b consiste en remplazarla por una matriz construida a partir de un conjunto de ensamble, obtenido en base a perturbaciones aleatorias realizadas en los parámetros del modelo en cuestión y las correspondientes simulaciones en un horizonte temporal que permita capturar la dinámica del modelo.

3. PROBLEMA INVERSO PARA EL SARS-CoV-2

Uno de los mayores retos en el caso del SARS-CoV-2 es que muchas de las personas infectadas no presentan ningún síntoma, o desarrollan síntomas leves que pueden pasar desapercibidos. Esto hace que exista una importante fracción de la población infectada que no aparece en los registros y que son responsables de una gran cantidad de contagios, lo cual provoca a su vez que la modelización matemática de la propagación del virus y de la COVID-19 sea más compleja. Además, plantea retos a las autoridades sanitarias sobre el diseño eficiente y efectivo de cercos epidemiológicos y, sobre todo, diseño de campañas para la realización de pruebas tempranas a casos sospechosos, para su oportuno aislamiento.

La Organización Mundial de la Salud (OMS) sostiene que la mayoría de las personas (alrededor del 80%) se recupera de la enfermedad sin necesidad de realizar ningún tratamiento especial; alrededor de 1 de cada 6 personas que contraen la COVID-19 desarrolla una enfermedad grave; y, las personas mayores o las que padecen afecciones médicas subyacentes tienen más probabilidades de desarrollar una enfermedad grave. En torno al 2% de las personas que han contraído la enfermedad han muerto.

La familia de modelos matemáticos más usada para estudiar la proliferación de enfermedades virales son los modelos SEIR (por las siglas de Susceptibles, Expuestos, Infectados y Removidos). En estos modelos se crean compartimentos y se analizan las transiciones desde población susceptible a expuesta, la cual luego de un tiempo pasa a infecciosa, y de ésta, a removida. La remoción de los individuos se lleva a cabo mediante el aislamiento del resto de la población (cuarentena), la inmunización contra la infección (vacunación), la recuperación de la enfermedad con inmunidad total contra la reinfección o la muerte causada por la enfermedad (ver Brauer & Castillo-Chávez (2001)).

Para estudiar matemáticamente las particularidades del SARS-CoV-2, la variable personas infecciosas, en el modelo descrito anteriormente, se debe subdividir en dos compartimentos: personas infecciosas documentadas y no-documentadas. Así, los compartimentos poblacionales resultantes son: población susceptible, expuesta, infecciosa documentada, infecciosa no-documentada y removida. Estos compartimentos se acoplan entre sí mediante un sistema de ecuaciones diferenciales, que describe los flujos entre uno y otro, y que depende fuertemente de dos coeficientes dominantes: el índice de contagio (asociado al distanciamiento social) y la diseminación del virus por parte de los infecciosos no-documentados. Además, se incorpora información de movilidad humana entre ciudades o provincias, obteniéndose el siguiente sistema:

dSidt=βiSiIirNiμiβiSiIiuNi+θjMijSjNjIjrθjMjiSiNiIir (11a)

dEidt=βiSiIirNi+μiβiSiIiuNiEiZ+θjMijEjNjIjrθjMjiEiNiIir (11b)

dIirdt=αEiZIirD (11c)

dIiudt=(1α)EiZIiuD+θjMijIjuNjIjrθjMjiIiuNiIiu (11d)

dRidt=ρIir+IiuD (11e)

Ni=Ni+θjMijθjMji. (11f)

Aquí, Si, Ei, Iir, Iiu, Ri son las soluciones del sistema de ecuaciones diferenciales (11,          ) y representan a la población susceptible, expuesta, infecciosa documentada, infecciosa no documentada y removida, mientras que Ni representa la población total de la ciudad i. El sistema se complementa con condiciones iniciales para cada una de las variables del mismo. Las soluciones mencionadas son halladas mediante la aplicación de métodos de resolución numérica como el método de Euler implícito para la variable temporal y el método de Newton para la variable espacial.

Figura 1 Escenarios de propagación del virus en pacientes con sintomatología fuerte en la provincia de Pichincha al 17 de marzo del 2020 

Se considera que los pacientes con síntomas lo suficientemente fuertes como para ser documentados son los que representan Iir (en principio, la población que debido a sus síntomas es diagnosticada por el sistema de salud), mientras que todas las otras personas infecciosas (en principio no diagnosticadas) representan la variable Iiu. La constante βi representa la tasa de transmisión debida a los casos de personas enfermas documentadas en la ciudad/provincia i, mientras que la tasa de transmisión de los casos no detectados es la misma βi, reducida por un factor 0μi1. Esto último se debe a que la carga viral en las personas con pocos o ningún síntoma no es tan alta como en las personas que ya han sido documentadas. En Li et al (2020) se sostiene que las personas infectadas no documentadas en Wuhan fueron la mitad de contagiosas que las personas documentadas (antes del 23 de enero de 2020): μ=0.55; 95% CI: 0.46-0.62. Los otros parámetros del modelo son: α que representa la fracción de las infecciones documentadas que desarrollaron síntomas severos, Z el tiempo promedio de latencia (tiempo de incubación del virus), D el tiempo promedio de duración del período infeccioso y ρ la tasa de recuperación. Se debe aclarar que Ri representa la población que luego de pasar por el período infeccioso, tiene inmunidad, al menos temporal. De acuerdo a los epidemiólogos, una vez que esta población cruce un umbral, la pandemia se da por controlada, al menos temporalmente.

Un parámetro fundamental de la epidemia es el número efectivo de reproducción Re, el cual mide el número promedio de casos nuevos que genera un caso confirmado. En este modelo, este indicador se lo calcula, para la ciudad/provincia i, mediante

Rei:=αβiD+(1-α)μiβiD.

Si este número se sostiene por encima de 1, la enfermedad seguirá expandiéndose (Ridenhour et al (2015)). Así, la meta es bajar este número por debajo de 1.

Finalmente, Mji representa el número de personas que se desplazan desde la ciudad/provincia j a la ciudad/provincia i, mientras que θ es un factor superior a uno, el cual se usa para corregir posibles subregistros de la movilidad de las personas. Estos criterios de movilidad son clave en el escenario global actual, donde la población está activamente interconectada y la movilidad es, si no imposible, muy difícil de suspender.

Para la estimación de los diferentes parámetros en el modelo (11) usamos el esquema variacional presentado previamente (ver la subsección 2.2). Para la información de fondo de los parámetros, utilizamos los intervalos de confianza calculados en Li et al (2020) que, aunque obtenidos en un contexto socio-cultural distinto, proveen una primera estimación, así como una medida de la incertidumbre. Estos intervalos son los siguientes:

  • Tasa de transmisión de la población infectada reportada: 0.8β1.5.

  • Factor de reducción de la tasa de transmisión de población infectada no reportada: 0.2μ1.

  • Factor multiplicativo de corrección de los datos de movilidad de la población: 1θ1.75.

  • Tiempo promedio de días de latencia: 2Z5, días.

  • Fracción de pacientes que desarrollaron síntomas fuertes: 0.02α1.

  • Tiempo promedio de días de duración de la infección: 2D5, días.

Asumiendo una sola provincia aislada e introduciendo el vector de parámetros P:=(β,μ,α,Z,D)T, el problema inverso de identificación de parámetros está formulado mediante:

minPUad  i,j(Ir(ti)Iiobs)Cij1(Ir(tj)Ijobs)+(PPb)TB1(PPb)=J(P¯) (12)

donde Iiobs,i=1,,n, son las observaciones históricas de infectados reportados obtenidas a partir de los registros oficiales, C=(Cij) corresponde a la matriz de covarianza de errores de observación, B es la matriz de covarianza de errores de fondo y Uad es el conjunto admisible conformado por intervalos a priori en los cuales deben hallarse los parámetros. Mientras que la matriz B es obtenida, en nuestro caso, a partir de los intervalos de confianza reportados en Li et al (2020), la matriz C es estimada tomando en cuenta tanto la confiabilidad de las pruebas serológicas PCR como el número de tests que se realizan en cada provincia a la semana. De manera específica, se tiene la fórmula

σii2=κηiσPCR2, (13)

donde κ es la cantidad ideal de tests semanales a realizarse por cada millón de habitantes (actualmente tomamos el valor κ=4000), ηi es la cantidad de tests por millón de habitantes realizados en la provincia bajo estudio en la semana en cuestión, y σPCR2 es la varianza propia de las pruebas PCR.

Al tener como restricción un sistema de ecuaciones diferenciales, el problema (12) debe ser tratado como un problema de control óptimo, en el cual la variable de estado es elemento de las funciones absolutamente continuas, AC([t0,tn],R5). Para hallar su condición de optimalidad utilizaremos la técnica del Lagrangeano.

Sean λS, λE, λI, λU, λR los multiplicadores de Lagrange asociados a las restricciones diferenciales del problema (12). Definimos el Lagrangeano del problema por:

L=J(P)+t0tnλS(t)-dSdt-βSIr+μβSIuN+λE(t)-dEdt+βSIr+μβSIuN-EZ+λI(t)-dIrdt+αEZ-IrD+λU(t)-dIudt+(1-α)EZ-IuD+λR(t)-dRdt+Ir+IuDdt+l, (14)

donde

l=θS(S(t0)-S0)+θE(E(t0)-E0)+θI(Ir(t0)-I0r)+θU(Iu(t0)-I0u)+θR(R(t0)-R0),

con θS, θE, θI, θU, θR los multiplicadores de Lagrange asociados a las condiciones iniciales de las variables de estado.

Como primer paso para obtener el sistema adjunto, debemos calcular la derivada direccional del Lagrangeano respecto a la variable de estado, x=(S,E,Ir,Iu,R), en una dirección arbitraria ν=(σ,ξ,w,v,r)AC([t0,tn],R5), e igualar el resultado a cero, (ver, por ejemplo, Alekseev et al (1987); De los Reyes (2015)), es decir,

Lx[ν]=LS[σ]+LE[ξ]+LIr[w]+LIu[v]+LR[r]=0.

Luego,

LS[σ]=t0tndλSdt+βIrN+μβIuN(λE-λS)σdt-λS(tn)σ(tn)+σ(t0)(λS(t0)+θS)=0LE[ξ]=t0tndλEdt+αλIZ+(1-α)λUZ-λEZξdt-λE(tn)ξ(tn)+ξ(t0)(λE(t0)+θE)=0LIr[w]=t0tndλIdt+JIr-βSλSN+βSλEN-λID+λRDwdt+w(tn)(Cnn-1(Ir(tn)-Inobs)-λI(tn))+w(t0)(λI(t0)+θI)=0LIu[v]=t0tndλUdt-μβSλSN+μβSλEN-λUD+λRDvdt-v(tn)λU(tn)+v(t0)(λU(t0)+θU)=0LR[r]=t0tndλRdtrdt-r(tn)λR(tn)+r(t0)(λR(t0)+θR)=0.

Finalmente, ya que la dirección fue tomada de manera arbitraria, de lo anterior, se sigue que el sistema adjunto está dado por:

-dλSdt=βIrN+μβIuNλE-λS,λS(tn)=0-dλEdt=-1ZλE+αZλI+(1-α)ZλU,λE(tn)=0-dλIdt=JIr-βSN(λS-λE)-λID+λRD,λI(tn)=Cnn-1(Ir(tn)-Inobs)-dλUdt=-μβSN(λS-λE)-λUD+λRD,λU(tn)=0-dλRdt=0,λR(tn)=0

El gradiente de la función objetivo se obtiene al derivar el Lagrangeano con respecto a la variable de control. Se procede de esta manera y obtenemos las siguientes ecuaciones:

βJ=Bβ-1(β-βb)-0TSNIr+μIuλS-λE,μJ=Bμ-1(μ-μb)-0TβSNIuλS-λE,αJ=Bα-1(α-αb)+0TEZ(λI-λu),ZJ=BZ-1(Z-Zb)+0TEZ2(λE-αλI-(1-α)λU),DJ=BD-1(D-Db)+0T1D2IrλI+Iuλu-λR(Ir+Iu).

Ya que los parámetros del problema pertenecen a un conjunto de controles admisibles Uad, el cual incorpora los intervalos de confianza, la condición de optimalidad está definida por la siguiente desigualdad variacional

J(P)T(P-P)0,PUad. (15)

De manera adicional, ya que Uad está compuesto por restricciones de caja, la desigualdad variacional puede ser remplazada por una proyección componente a componente. Para la solución del problema, por tanto, usamos un método proyectado de segundo orden, con actualización de la matriz de tipo cuasi-Newton (para más detalles, ver Kelley (1999)).

4. RESULTADOS

En esta sección presentamos, a manera de ejemplo, los resultados de la estimación de parámetros del modelo (11) para la semana del 26 de junio al 2 de julio de 2020, así como las respectivas proyecciones quincenales de casos reportados de infectados con el coronavirus en diferentes provincias del país. Cabe indicar que este tipo de estadísticas son calculadas por el Centro de Modelización Matemática con una periodicidad semanal y puestas a disposición de los tomadores de decisión en materia de políticas de salud.

Para la estimación de parámetros, de lo expuesto en secciones anteriores, consideramos el vector de parámetros a estimar, P=(β,μ,α,Z,D), y calculamos sus valores mediante la solución del problema (12). Es importante recordar que este problema variacional toma en cuenta la incertidumbre de las mediciones a través de la matriz de covarianza de errores C. Para la construcción de C se considera el nivel de confiabilidad de las pruebas de laboratorio PCR y el número de tests que se realiza (ver la fórmula (13)). La resolución numérica de (12) es realizada para cada provincia en una ventana de tiempo de 7 días. Asimismo, tanto C como los valores de fondo con los cuales se realiza la estimación son actualizados de forma semanal.

Figura 2 Estimación de parámetros en la semana del 26 de junio al 2 de julio de 2020, para las provincias de Azuay (arriba.) y Carchi (abajo.). 

En la Figura 2, los puntos representan la información oficial del número de infectados reportados para cada provincia, siendo los de color naranja los correspondientes al periodo de estimación, es decir del 26 de junio al 2 de julio de 2020. Se presenta, además, en color azul, la información del número de personas infectadas en los 5 días anteriores al periodo de estudio, ya que debido al tiempo que transcurre entre la realización y la obtención de los resultados de las pruebas serológicas PCR, la condición inicial del problema se considera con 5 días de retraso.

Como resultado de la estimación se obtienen parámetros óptimos para el período de estudio considerado. La curva azul de la Figura 2 corresponde a la solución del modelo (11) para la variable Iir, es decir, la población que debido a sus síntomas es diagnosticada con el virus. Esta curva ajusta las observaciones, tomando en cuenta el modelo matemático y la incertidumbre de la data oficial.

Con los parámetros obtenidos, calculamos adicionalmente el número de reproducción efectivo Re. Ya que el modelo es resuelto semanalmente, podemos también calcular un Re actualizado con esa frecuencia. Esto es importante ya que nos permite visualizar la evolución de la epidemia en cada región de estudio, es decir, en cada provincia.

En la Figura 3 se presenta la evolución del número de reproducción efectivo Re para las provincias de Pichincha y Guayas, desde la semana del 27 de marzo hasta la semana del 26 de junio de 2020. Los colores de las gráficas nos permiten visualizar rápidamente el estado del Re cada semana. En rojo, se presentan aquellos valores de Re2, en amarillo los valores entre 1<Re<2, mientras que en verde los valores de Re1. Recordemos que si este número se sostiene por encima de 1, la enfermedad seguirá expandiéndose, siendo un indicador de que el virus empieza a estar controlado cuando el Re se encuentra por debajo de 1.

Figura 3 Evolución del número de reproducción efectivo, para la provincia de Pichincha (arriba) y la provincia de Guayas (abajo). 

La segunda parte de los resultados corresponde al pronóstico del número de personas infectadas oficialmente registradas. Estos pronósticos se los realiza de manera semanal para todas las provincias del país y para una ventana de tiempo de 15 días. Los parámetros que se utilizan son los calculados con la metodología descrita en este reporte. Adicionalmente, para resolver el sistema de ecuaciones consideramos aleatoriedad en los parámetros, las condiciones iniciales y los términos en el sistema de ecuaciones (Li et al (2020)). Para los parámetros y las condiciones iniciales consideramos perturbaciones normales, mientras que la estocasticidad de las ecuaciones se refleja a través de distribuciones de probabilidad de Poisson.

Para cada provincia la simulación se ejecuta con un ensamble de tamaño 80. Los resultados de estas simulaciones se presentan en la Figura 4 con líneas de color azul; para cada una de estas corridas la condición inicial es perturbada. En anaranjado se presenta la media de todas las simulaciones realizadas, mientras que el área gris representa el intervalo de confianza al 95% para el valor medio calculado. Como resultado, de entre todas las simulaciones realizadas presentamos las tres más significativas: escenario optimista (menor número de infectados reportados), escenario pesimista (mayor número de infectados reportados) y el pronóstico promedio.

En la Figura 4 se muestran las proyecciones de los casos reportados de COVID-19 (número de personas infectadas reportadas por las autoridades) de 8 de las 24 provincias del país, para el periodo del 3 al 18 de julio. La condición inicial fue tomada el día 2 de julio de 2020.

Figura 4 Pronóstico de infectados reportados acumulados para el periodo del 3 al 18 de julio del 2020. 1ra fila: Azuay(izq.), Bolivar(der.). 2da fila: Cañar(izq.), El Oro(der.). 3ra fila: Esmeraldas(izq.), Guayas(der.). 4ta fila: Pastaza(izq.), Pichincha(der.). 

Además de los reportes gráficos, para cada provincia se obtienen tablas con los valores numéricos de los escenarios pesimista, optimista y promedio. En la Figura 5 observamos las tablas con los valores de los pronósticos para el periodo del 3 al 18 de julio del 2020 para las provincias de Esmeraldas y Santa Elena.

Figura 5 Tablas con proyecciones de infectados reportados acumulados para el periodo del 3 al 18 de julio del 2020 de Esmeraldas(arriba) y Santa Elena(abajo). 

5. CONCLUSIONES

El monitoreo de la pandemia del SARS-CoV-2 en Ecuador requiere de la estimación rigurosa de diferentes indicadores de interés bajo condiciones de incertidumbre. Uno de las cantidades más importantes en este sentido es el número de reproducción efectivo de la pandemia, el cual requiere de la estimación robusta de los parámetros de un modelo matemático que recoja adecuadamente la dinámica viral. En este artículo presentamos el esquema desarrollado para llevar a cabo dicha tarea de manera periódica en cada región de estudio, proveyendo una herramienta importante de monitoreo y toma de decisiones.

La estimación de parámetros mediante técnicas variacionales, que utilizan un enfoque bayesiano brinda ventajas sobre otros métodos de estimación. Particularmente, en el caso ecuatoriano, esto resulta importante debido al alto nivel de incertidumbre proveniente de la data oficial; un factor determinante que no es considerado en otros enfoques.

La metodología para la construcción de las matrices de covarianza, presentes en el funcional de costo, permite incorporar la mencionada incertidumbre. En efecto, la construcción de C toma en cuenta la confiabilidad de las pruebas serológicas PCR, así como el número de test que se realizan en una población determinada. Mientras menos tests se realicen, la varianza será más alta.

Las soluciones del sistema de ecuaciones que modelan la propagación del virus, dependen fuertemente de los parámetros del modelo, siendo los dos coeficientes dominantes: el índice de contagio y la diseminación del virus por parte de los infecciosos no-documentados. En este sentido, las soluciones que más se aproximen a la realidad en el caso ecuatoriano serán aquellas cuyos parámetros hayan sido estimados utilizando una metodología que considere las particularidades de la región de estudio, como las descritas en este artículo.

Las proyecciones de propagación del virus consideran aleatoriedad en los parámetros, las condiciones iniciales y los diferentes términos en el sistema de ecuaciones diferenciales del modelo. Gracias a la aleatoriedad podemos realizar varias simulaciones y presentar distintos escenarios para cada región de estudio.

REFERENCIAS

Alekseev, V.M., Tikhomirov, V.M., and Fomin, S.V. (1987). Optimal Control. Springer Science and Business Media [ Links ]

Asch, M., Bocquet, M., and Nodet, M. (2016). Data assimilation: methods, algorithms, and applications. Society for Industrial and Applied Mathematics. [ Links ]

Aster, R., Borchers, B. and Thurber, C.H. (2013). Parameter Estimation and Inverse Problems. Academic Press. [ Links ]

Brauer, F., Castillo-Chávez, C. (2001). Mathematical Models in Population Biology and Epidemiology. Springer. [ Links ]

Chowell, G. (2017). Fitting dynamic models to epidemic outbreaks with quantified uncertainty: A primer for parameter uncertainty, identifiability, and forecast. Infectious Disease Modelling. DOI: 10.1016/j.idm.2017.08.001 [ Links ]

De los Reyes, J.C. (2015). Numerical PDE-Constrained Optimization.. Springer Verlag. [ Links ]

Kelley, C.T. (1999). Iterative Methods for Optimization. Society for Industrial and Applied Mathematics. [ Links ]

Lauer, S.A., Grantz, K.H., Bi, Q., Jones, F.K., Zheng, Q., Meredith, H.R, Azman, A.S., Reich, N.G., Lessler, J. (2020). The Incubation Period of Coronavirus Disease 2019 (COVID-19) From Publicly Reported Confirmed Cases: Estimation and Application. Annals of Internal Medicine. DOI: 10.7326/M20-0504 [ Links ]

Li,R., Pei,S., Chen,B., Song,Y., Zhang,T., Yang, W. and Shaman, J. (2020). Substantial undocumented infection facilitates the rapid dissemination of novel coronavirus (SARS-CoV2).Science. DOI: 10.1126/science.abb3221 [ Links ]

Ridenhour, B., Kowalik, J.M. and Shay, D.K. (2015). El número reproductivo básico (R0): consideraciones para su aplicación en la salud pública. PanAmerican Journal of Public Health. DOI: 10.2105/AJPH.2013.301704 [ Links ]

Verity, R., Okell, L. C., Dorigatti, I., Winskill, P., Whittaker, C., Imai, N., and Dighe, A. (2020). Estimates of the severity of coronavirus disease 2019: a model-based analysis. The Lancet infectious diseases. https://doi.org/10.1016/S1473-3099(20)30243-7 [ Links ]

Wu,D., Wu, T., Liu, Q. and Yang, Z. (2020). The SARS-CoV-2 outbreak: what we know. International Journal of Infectious Diseases. DOI: 10.1016/j.ijid.2020.03.004 [ Links ]

1

Recibido: 28 de Agosto de 2020; Aprobado: 06 de Enero de 2021

*Autor de correspondencia: paula.castro@epn.edu.ec

Paula M. Castro C. Estudiante del Programa de Doctorado en Matemática Aplicada de la Escuela Politécnica Nacional (EPN) e investigadora del centro de Modelización Matemática (MODEMAT). Ingeniera Matemática de la EPN (2015) y Magister en optimización matemática (2017) por la misma casa de estudios. Su área de estudios es el análisis variacional de problemas de asimilación de datos. ORCID: https://orcid.org/0000-0002-2560-9096

Juan Carlos De los Reyes. Ph.D. en Matemática. Director del Centro de Modelización Matemática (MODEMAT). Profesor en el área de optimización y control del departamento de matemática de la EPN. Es autor de varios artículos científicos y ha realizado investigaciones y ponencias en universidades y centros de investigación de varios países. Es miembro activo de la Academia de Ciencias del Ecuador (ACE) y de la Academia Mundial de Ciencias (TWAS). ORCID: https://orcid.org/0000-0003-2761-5382

Sergio González-Andrade. Ph.D. en Matemática. Director del programa doctoral en Matemática Aplicada de la Escuela Politécnica Nacional (EPN). Investigador del centro de Modelización Matemática (MODEMAT) y profesor del departamento de matemática de la EPN. Sus áreas de investigación son la simulación numérica de fluidos no-Newtonianos así como el estudio de los métodos multimalla y el análisis de los mt́odos de Newton generalizados. ORCID: https://orcid.org/0000-0001-7022-1245

Pedro Martín Merino Rosero. Ph.D. en Matemática. Coordinador del laboratorio nacional de cálculo científico HPCModemat. Investigador del centro de Modelización Matemática (MODEMAT) y profesor del departamento de matemática de la EPN. Actualmente sus intereses científicos se centran en métodos de optimización de problemas no diferenciables y modelamiento de problemas provenientes de las biociencias. ORCID: https://orcid.org/0000-0002-8178-8834

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons