Pensamentos aleatórios sobre a descrição dos métodos estatísticos em projetos

Estive pensando sobre como apresentamos nossos métodos estatísticos em projetos de pesquisa – especificamente projetos de iniciação científica, mestrado e doutorado – e tem alguns aspectos disso que acho que são bastante subótimos, por assim diz, e poderiam ser bem mais informativos (e melhores para a formação das pessoas) se mudássemos a abordagem geral de como escrevemos esses métodos.

Em ecologia, a estatística que utilizamos frequentemente é bem mais complexa do que a estatística que aprendemos na graduação – ou na pós-graduação; a não ser que façamos graduação ou pós-graduação em estatística! Mas aí provavelmente não estaríamos desenvolvendo um projeto de ecologia. (Acho que não conheci nenhum estatístico que estivesse fazendo pós-graduação em eco nos PPGs com que tive mais contato). Por exemplo, vejam o artigo “The mismatch between current statistical practice and doctoral training in ecology”, de Touchon e McCoy, publicado em 2016 na Ecosphere – podem acessar por este link aqui, o acesso é aberto. Eles mostram como a estatística ensinada nos cursos de doutorado frequentemente não é a mesma estatística usada nos artigos. Pela minha experiência, frequentemente usamos modelos generalizados lineares e aditivos, modelos mistos, análises por permutações e até estatística Bayesiana. São coisas que não aprendemos; e mesmo as coisas que aprendemos – ANOVA, regressão, teste t – frequentemente aprendemos de forma superficial.

Então não faz muito sentido esperar que alguém que está escrevendo seu projeto de doutorado ou mestrado – ou iniciação científica, pois defendo que projetos de IC também devem ser escritos pela/o estudante, com auxílio de quem orienta – consiga descrever em detalhes os métodos estatísticos que irá utilizar, né? Inclusive boa parte do tempo, principalmente na pós, é gasta (ou deveria ser gasta) estudando estatística.

Pensando aqui em um exemplo hipotético de como poderia ser a parte estatística de um projeto de pesquisa:

“Usaremos análise de variância para analisar a variação no tamanho de chifre dos unicórnios, testando a normalidade dos dados por meio de um teste de Kolmogorov-Smirnov. Analisaremos a cor dos unicórnios por meio de um teste de qui-quadrado.”

Ou senão:

“Os dados serão analisados por meio de modelos lineares generalizados mistos.”

São descrições plausíveis… Mas é provável que no final a análise seja diferente. E se a distribuição não for normal? E se os dados apresentarem heterogeneidade de variâncias? E se a relação entre variáveis não for linear? E se alguma outra premissa dos modelos for violada?

Mas não faz sentido esperar que alguém iniciando seu projeto consiga pensar em todas essas coisas… Devemos então abolir a parte da análise estatística dos projetos? Eu defendo que não! E não estou me contradizendo, haha.

Essas descrições hipotéticas que coloquei acima, a meu ver, têm um problema maior do que a possibilidade da análise final ser diferente da apresentada. O problema é que eles falam do teste, mas deixam de lado outras informações relevantes. Por exemplo: analisar a variação no tamanho de chifre em relação ao que? À espécie? Ao ambiente? A alguma outra coisa? E essa alguma outra coisa, é categórica ou contínua? Ou no caso do modelo generalizado – qual é a variável resposta e a variável explanatória? E se existirem diversas variáveis explanatórias, o que será feito com elas?

Essas descrições dizem que a pessoa sabe (provavelmente) o que é ANOVA ou modelo generalizado e que estas análises podem ser aplicadas (provavelmente) aos seus dados, mas não me dizem muito mais do que isso.

Qual seria então a minha sugestão pra isso? Bom, eu acho que seria mais interessante seguirmos a seguinte lógica:

Não faz sentido esperar que a pessoa tenha um profundo conhecimento de estatística ao começar seu trabalho; mas faz sentido que ela saiba o que quer relacionar com o que e como pretende interpretar esses resultados. E idealmente é interessante que a pessoa tenha uma noção de que tipo de coisas ela vai precisar estudar para analisar seus dados daí a um ano e meio.

Então, pra mim, a primeira informação importante é quais serão as variáveis explanatórias e as variáveis resposta usadas na análise. Por exemplo, se coletamos dados sobre diferentes espécies de pokemons presentes em parcelas espalhadas por uma área, o que iremos fazer com estes dados? Como iremos resumir eles para a análise? Podemos usar o número de espécies por parcela (riqueza); uma medida de diversidade; a abundância de espécies mais abundantes; a diversidade funcional ou o número de espécies em cada grupo funcional (pokemons de fogo, pokemons de água etc); e podemos trabalhar com os dados de forma multivariada. Definir estas variáveis não requer um profundo conhecimento estatístico, mas requer um conhecimento da história natural dos bichinhos e um entendimento do que exatamente se quer avaliar no projeto – e acho que faz sentido esperarmos isso.

Similarmente, em relação às variáveis explanatórias – com o que iremos relacionar o número de espécies de pokemons? E essas variáveis são contínuas ou categóricas? Iremos relacionar elas com o ambiente? Com a distância entre as parcelas? Com intensidade de distúrbios? Etc…

Definir esses aspectos são os primeiros passos para definir a análise estatística; e acho importante que ao escrever o projeto a pessoa já tenha noção desses aspectos, mesmo que não consiga ainda definir se usará regressão linear, GLM, GAM, random forest ou estatística Bayesiana.

Outro aspecto importante é avaliar se existe algum fator de não-independência entre as amostras… E dizer que isso será levado em conta nas análises. Por exemplo, se temos parcelas distribuídas em blocos ou se a distâncias entre as unidades amostrais é insuficiente para garantir sua independência. Novamente, existem diferentes formas de lidar estatisticamente com isso (e algumas dessas formas podem até funcionar!), e é interessante que a pessoa saiba que essa falta de independência é algo com que se deva lidar, mas eu não esperaria que ela já saiba que vai precisar um modelo misto modelando a autocorrelação nos erros como um processo autoregressivo de primeira ordem. :-)

E a quarta coisa que acho interessante ter nestes projetos é uma visão geral de como será a análise. Ou seja: a ideia é usar testes de hipótese? Não vejo necessidade de falar qual teste de hipótese será usado – até porque isso depende em parte dos próprios dados – mas é legal falar que os dados serão analisados por testes de hipóteses, avaliando o p-valor. Ou pode ser dito que será uma seleção de modelos, comparando entre alguns modelos pré-definidos. Neste caso, os modelos a serem comparados podem ser apresentados – idealmente eles representam as hipóteses, então podem ser definidos nesta etapa – mas não vejo necessidade de especificar se será um modelo linear ou um GLM ou um GLS. Pode também ser dito que será avaliado quão importantes são as diferentes variáveis explanatórias para explicar o processo. E talvez seja algo mais específico – análise de padrão espacial, análise de séries temporais, análise de diversidade beta… Há tempo numa pós-graduação para estudar estes métodos; importante é ter uma noção geral do tipo de coisa que será feita e precisa portanto ser estudada.

Resumindo, então, a minha ideia de como seria uma boa descrição dos métodos em um projeto de mestrado, doutorado ou iniciação científica: Eles deveriam apresentar quais serão as variáveis explanatórias e resposta; apresentar se as análises irão lidar com algum fator que cause falta de independência nos dados; e falar qual vai ser a abordagem estatística geral: testes de hipótese, seleção de modelos, inferências de modelos múltiplos, etc. Feito isso, caso já haja uma boa noção de qual exatamente vai ser a análise – legal, apresente! No meu projeto de mestrado eu fiz isso: baseei minha amostragem e minha análise em um artigo publicado e defini que a análise usada seria a proposta naquele artigo. Mas no fim acabei mudando para uma mais adequada (sem mudar a abordagem geral). Se não souber ainda o que você vai fazer – tudo bem, você vai ter tempo de estudar os detalhes. O importante mesmo é saber que perguntas exatamente você quer que sua análise responda e ter uma noção da abordagem geral (até pra saber o que você deve estudar). :-)

(PS: O que falei aqui não se aplica a projetos de pesquisa maiores, submetidos por pessoas que já terminaram seu doutorado. Destes eu esperaria sim uma noção mais precisa dos métodos estatísticos a serem usados; e imagino que as agências de fomento também. Isso dá uma certa garantia de que o projeto vai dar certo, quando o foco é na produção de conhecimento mais do que na formação das pessoas.)

(PPS: Dito tudo isso, eu acredito que quanto mais detalhada for sua descrição da análise estatística – dentro de certos limites! – e quanto melhores forem seus métodos como um todo, maiores as chances da agência de financiamento aprovar seu projeto. Acho que isso foi um dos fatores que me auxiliou a conseguir bolsa FAPESP de primeira no mestrado; e faz sentido – se a descrição for detalhada, a/o parecerista provavelmente vai pensar “olha, esse mingo realmente sabe o que está fazendo, bora dar essa bolsa!”.)

2 pensamentos sobre “Pensamentos aleatórios sobre a descrição dos métodos estatísticos em projetos

  1. Ótimo Pavel, vc poderia falar mais sobre as principais diferenças entre os testes de hipótese, a seleção de modelos, e inferências de modelos múltiplos?
    Ou onde seria legal estudar sobre isso?
    Abraços

    Curtir

    • Oi Adriana! Obrigado! :-)
      Hum, isso daria um ótimo post haha
      Mas resumidamente, eu acho que dá pra pensar assim:
      – Teste de hipótese nula (NHST – null hypothesis significance testing): temos a hipótese de que existe um efeito ou de que existe uma diferença. A hipótese nula é de que não existe. O teste de hipótese diz qual seria a probabilidade de observarmos aquilo que observamos (ou algo maior) se a hipótese nula for verdadeira. Se essa probabilidade for baixa, concluímos que a hipótese nula (de que não há um efeito) provavelmente é falsa e portanto deve haver um efeito.
      — Inclusive podemos ter uma série de hipótese nulas e fazer seleção de modelos com base nela. Do tipo, temos quatro variáveis explanatórias. As nossas hipóteses nulas diriam respeito ao efeito de cada uma dessasa variáveis…
      — Enfim, a ideia geral é essa: testar se existe um efeito ou se não existe este efeito.
      – Já seleção de modelos é quando temos várias hipóteses concorrentes. Podem ser hipóteses do tipo “Temperatura não afeta o metabolismo de unicórnios”, “Temperatura o afeta de forma linear”, “Temperatura o afeta de forma não-linear”. Ou podemos ter hipóteses do tipo “A abundância de unicórnios depende da quantidade de recursos”, “A abundância de unicórnios depende da presença de dragões que predam unicórnios”, “A abundância de unicórnios depende dessas duas coisas”, “A abundância de unicórnios não depende de nenhuma delas”. Sim, isso poderia ser testado por testes de hipótese; mas de qualquer modo, temos aqui quatro hipóteses diferentes e queremos saber qual delas é mais plausível. Podemos pensar em modelos como hipóteses ou explicações, e seleção de modelos nos permite determinar qual é a explicação mais plausível.
      – Só que às vezes mais de uma explicação é igualmente plausível e não conseguimos escolher apenas uma delas. E aí entra multimodel inference, quando fazemos nossas inferências com base em todos (ou parte) dos nossos modelos, sem escolher um único deles. Uma abordagem que gosto é a de importância relative de variáveis: do tipo, não queremos saber simplesmente se recursos e dragões afetam a abundância de unicórnios, mas quão importantes são estes efeitos, um em relação ao outro. (E aí métodos clássicos de partição de variância entre variáveis também fazem isso…… Enfim. rs)
      É basicamente isso…. testar uma hipótese nula; ou escolher um (ou alguns) entre modelos/hipóteses; ou trabalhar com vários modelos/hipóteses e tirar conclusões desse conjunto de modelos/hipóteses, sem escolher um único.

      Curtir

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s