Um pouco sobre seleção de modelos (e também sobre COVID-19)

Neste post eu vou falar um pouco sobre incertezas associadas a ajuste de modelos e à comparação entre diferentes modelos, e algumas formas de escolher o melhor modelo considerando um conjunto de dados. Não usem meus modelos para tentar prever o que acontecerá com o COVID-19 no Brasil; o objetivo do post é puramente didático. Mas podem usá-lo para tentar convencer pessoas a ficarem em casa :-)

Semana passada eu havia ajustado uma curva exponencial ao número de mortes provocado por COVID-19 no Brasil e feito uma previsão do que seria esperado para esta semana se o aumento no número de mortes continuasse na mesma proporção. Vamos ver o que aconteceu?

modSel_figure1

As linhas pretas são os dados que foram usados para ajustar a curva (em roxo), e as linhas vermelhas são o que de fato aconteceu. E felizmente a minha previsão não se cumpriu! A mortalidade observada até agora está bastante abaixo do que seria esperado. Isto é, supondo que a mortalidade esteja sendo relatada corretamente… É possível, e até provável, que uma porção importante das mortes pelo COVID-19 esteja sendo atribuída a outras causas, por falta de testes; veja, por exemplo, aqui. Mas supondo que os dados (obtidos aqui) são confiáveis, o crescimento aconteceu mais devagar do que o simples modelo exponencial previa.

Por que a previsão do modelo não se cumpriu? Bom, como eu tenho comentado desde o primeiro post deste ciclo, este é um modelo muito simples, que dificilmente vai capturar todas as nuances de um processo complexo como a expansão de uma doença. Existem modelos muito mais sofisticados sendo ajustados a estes dados, inclusive levando em conta dados demográficos, de mobilidade e outros.

Mais abaixo vou mostrar novas curvas que ajustei, para número de casos no Brasil, mortalidade no Brasil, e número de casos na Bahia. Para cada conjunto de dados ajustei três modelos: o modelo exponencial (explicado aqui), o modelo logístico (explicado aqui), e um terceiro modelos – o modelo aditivo generalizado. Sem querer entrar em detalhes demais mas já entrando, o modelo aditivo é um modelo sem uma fórmula matemática pré-definida. Ou seja: modelos exponenciais e logísticos obedecem a uma equação matemática, e o processo de ajuste da curva consiste em encontrar parâmetros (como a taxa de crescimento r e a capacidade de suporte K) que melhor se ajustam aos dados. Já o modelo aditivo busca encontrar a curva que melhor se ajustar aos dados, sem se superajustar. Tá, acho que essa frase não fez muito sentido à primeira vista, haha. Vou tentar explicar…

Digamos que você quer ajustar uma curva a um elefante…

Não, vamos deixar pra falar de elefantes depois.

Digamos que você quer ajustar uma curva aos dados do COVID-19 na Bahia… Que é o que estamos fazendo mesmo :-). Mas você não faz ideia de que tipo de modelo ajustar. Um bom modelo deve ser simples, mas não simples demais; precisa ter a complexidade e a simplicidade na proporção certa. Isso é o que chamamos de um modelo parcimonioso: nem simples demais, nem complexo demais. Se tivermos um modelo muito simples, aumentamos o chamado viés: as previsões do modelo estarão enviesadas para baixo ou para cima, resultando em subestimativas ou superestimativas. Por outro lado, um modelo complexo demais resulta no chamado superajuste: o modelo se ajusta perfeitamente aos nossos dados, mas isso não representa o processo biológico subjacente. Ou seja, ele descreve perfeitamente os nossos dados, mas não pode ser usado para fazer previsões. Nas palavras de um sábio que não lembro quem era, é como se o nosso modelo fosse suficientemente complexo para ajustar um elefante.

Na figura abaixo, temos três modelos ajustados ao COVID-19 na Bahia; coloquei o eixo Y em escala logarítmica para facilitar a visualização, mas fiz o ajuste com os dados na escala linear. Não coloquei as datas, e sim os dias desde o início, porque eu não quero que eles sejam usados para prever o que irá acontecer, a não ser para talvez uma previsão muito superficial e pouco precisa.

modSel_figure2_v2

No primeiro modelo (canto esquerdo superior; linha vermelha) temos um modelo simples demais: a linha fica consistentemente acima dos dados, depois abaixo dos dados, e depois novamente acima dos dados. É provável que este modelo geraria uma superestimativa nos resultados – que é o que parece ter acontecido com nosso modelo exponencial. Já o último modelo (linha verde, canto esquerdo inferior) apresenta superajuste: vejam como a curva vai “seguindo” os pontos. Ele se ajusta quase perfeitamente aos dados, mas boa parte deste ajuste deve ser variação aleatória, sem utilidade para explicar o processo e tampouco para fazer previsões. Pequenas diferenças aleatórias nos dados resultariam em uma curva visivelmente diferente. Ou seja, existe muita variabilidade, ou incerteza, na curva ajustada.

O modelo parcimonioso é o modelo do canto direito superior (curva roxa), com a curva passando “no meio” dos dados; este modelo minimiza tanto o viés quanto a incerteza. Resumidamente, quanto mais simples o modelo, maior seu viés; quanto mais complexo sem necessidade, maior a incerteza. Um modelo parcimonioso concilia esses dois aspectos.

A ideia de um modelo aditivo é basicamente essa: achar uma curva que se ajusta aos dados, sem se superajustar – ou seja, uma curva parcimoniosa. Eu gosto deles porque eles não assumem uma relação pré-definida entre as variáveis, sendo mais flexíveis; mas muita gente não gosta deles porque eles não assumem uma relação pré-definida entre as variáveis, sendo mais flexíveis. Ah, e outra diferença entre os modelos é que no modelo aditivo (generalizado) eu usei a distribuição binomial negativa, enquanto os outros modelos consideram uma distribuição normal… Se você ficou curioso sobre o que esses termos significam, pergunte ao Google o que são modelos generalizados, ou espere eu escrever sobre isso algum dia que não sei quando virá :-)

Bom, então, sem mais delongas, apresento aqui esses – exponencial, logístico, e aditivo – três modelos ajustados ao número de casos de COVID-19 no Brasil, número de mortes no Brasil, e número de casos na Bahia. Apresento os modelos ajustados com os dados até agora e também previsões destes modelos para daqui a sete dias. (Não tem a curva do modelo logístico para o número de mortes porque não consegui ajustar a curva – isso pode indicar que o modelo logístico não seria um bom modelo.) (Baixei os dados ontem; vejam os posts anteriores para as fontes)

modSel_figure3

À primeira vista, o modelo logístico e o aditivo parecem muito parecidos; já o exponencial parece diferir bastante deles. O modelo exponencial fica consistentemente abaixo dos valores observados, exceto para os últimos dias, quando fica acima. Lembram do viés, mencionado acima? Eu diria que este modelo tem um viés alto, por ser simples demais.

Bom, os modelos aditivo e logístico parecem parecidos. Mas se olharmos para as suas previsões, diferem bastante: o aditivo prevê em torno de duas vezes mais casos do que o logístico, no prazo de uma semana. Em qual confiar? Provavelmente em nenhum, modelos um pouco mais sofisticados são necessários! Mas se imaginarmos que não conhecemos ninguém capaz de ajustar modelos mais sofisticados, podemos usar dois métodos para escolher o melhor modelo. (Outros métodos também existem!)

Uma possibilidade seria olhar para os resíduos. Resíduo é basicamente a diferença entre o valor ajustado (predito pela curva) e o valor observado (os dados em si). (No caso de modelos generalizados, existem algumas outras formas de calcular os resíduos, mas isso é tema para outro post). Em um modelo bem ajustado, os resíduos deverão formar uma bela nuvem de pontos, sem nenhum padrão visível neles. Então, nos gráficos abaixo, temos os resíduos de cada modelo (eixo Y) em função dos dias (eixo X). Não temos resíduos para o modelo logístico para o número de mortes porque não consegui ajustar este modelo.

modSel_figure4

A primeira coisa que me salta aos olhos é o problema do modelo exponencial: os resíduos crescem e depois descrescem consistentemente, em todos os modelos. Isso é característica de um modelo simples demais. Ou seja, provavelmente não devemos usar este modelo para previsão. Isso não quer dizer que o crescimento não seja exponencial – ele é, mas tem alguns detalhes adicionais que o nosso modelo não está levando em conta.

Para os modelos logísticos, o viés é menos consistente mas ainda existe. Para o número de casos no Brasil, os resíduos formam um padrão que quase lembra um eletrocardiograma: um leve decréscimo lá pelo dia 21, depois um aumento consistente e uma queda consistente. Para o número de casos na Bahia temos mais variação aleatória nos resíduos, mas me parece ainda haver um viés similar.

De modo que o os resíduos com distribuição mais aleatória são os do modelo aditivo. Assim, se eu fosse escolher entre estes três modelos, eu escolheria o aditivo. (Tem variação na heterogeneidade dos resíduos, com eles mais espalhados em uma parte do que em outra; o uso do modelo generalizado na verdade lidou com esse problema também).

Uma outra forma de comparar entre modelos é usando uma coisa chamada Critério de Informação de Akaike, ou AIC. Esta medida, criada por Hirotugu Akaike (1927-2009), faz uma ponderação entre a complexidade e a qualidade de ajuste de cada modelo. Quanto mais parcimonioso for o modelo, menor será o seu AIC. E quanto menor for o AIC, mais provável é que o modelo em questão é de fato o melhor entre os modelos sendo comparados. AIC só faz sentido se usado em comparação com outros modelos; quanto menor o valor de AIC, melhor o modelo.

Se calcularmos o AIC para os três modelos, temos os seguintes resultados (no caso calculei o chamado AICc, que é o AIC corrigido para amostras de tamanho pequeno; a interpretação é a mesma que para o AIC):

Casos no Brasil: AICc de 294 para o modelo aditivo, 448 para o modelo logístico e 547 para o modelo exponencial. A diferença entre o modelo aditivo e o logístico é de 154 unidades; isso indica que o modelo aditivo é muito (muito (muito)) melhor do que o logístico para estes dados. Normalmente diferenças maiores do que 4 (ou 2, dependendo da pessoa) unidades já são consideradas suficientes para escolher um modelo e descartar outro.

Mortes no Brasil: AICc de 103 para o modelo aditivo e 142 para o modelo exponencial. A diferença de 40 unidades é evidência forte para escolhermos o modelo aditivo.

Casos na Bahia: AICc de 146 para o modelo aditivo, 166 para o logístico e 210 para o exponencial. A diferença de 20 unidades entre o aditivo e o logístico continua sendo suficientemente grande para escolhermos o modelo aditivo.

(Parte da diferença entre os modelos se deve ao fato de eu ter usado uma distribuição binomial negativa no modelo aditivo e uma distribuição normal nos outros modelos – distribuições normais não são muito adequadas a dados de contagem; mas o modelo aditivo continua sendo o melhor modelo se eu usar a distribuição normal nele, embora com uma diferença menor).

Moral da história: podemos ajustar diferentes modelos ao mesmo conjunto de dados, e estes diferentes modelos irão gerar previsões diferentes. E nestes casos, é importante usarmos métodos estatísticos para escolher o melhor modelo entre os gerados. E mesmo escolhendo um modelo, isso não quer dizer que este é o melhor modelo possível entre todos que poderiam ser usados; eu mesmo não acho que qualquer dos modelos que usei aqui nos dê previsões precisas de como será a expansão do COVID-19 e seus efeitos no Brasil. Este site implementou outro modelo, que leva em conta outros parâmetros epidemiológicos, e permite simular o que pode acontecer em diversas cidades e estados do Brasil. Veja este post da Renata para um exemplo de simulação no site. E aqui temos um modelo usando equações diferenciais da variação no número de pessoas suscetíveis, infectadas, recuperadas etc, com diferenciação por faixa etária. Existem também modelos baseados em indivíduos, que modelam o que pode acontecer com cada indivíduo e, com base nisso, com a população com um todo. Enfim… Meu objetivo aqui era mostrar um pouquinho sobre como se dá o processo de seleção de modelos e as incertezas relacionadas a isso.

E continuem em casa! :-)

2 pensamentos sobre “Um pouco sobre seleção de modelos (e também sobre COVID-19)

  1. Pingback: Rotina, trabalho e saúde em tempos de crise – Mais Um Blog de Ecologia e Estatística

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s