Como pedir ajuda em estatística – alguns conselhos

Um dos melhores aspectos de entender um pouco mais de estatística ecológica é que pessoas vêm solicitar ajuda ou conselhos com certa frequência. Além de ser muito legal porque ajudar pessoas é muito legal por si só, é um belo aprendizado. Afinal, em que outras circunstâncias um ecólogo vegetal como eu iria se preocupar em como analisar dados de toxicologia ou de variação genética? Toda solicitação de ajuda é uma oportunidade para aprender mais sobre alguma análise ou alguma abordagem, e eu pessoalmente adoro isso.

Dito isso, existem algumas coisas que poderiam tornar esta prática bem mais produtiva para ambos os lados. Especificamente, algumas informações que são, a meu ver, essenciais e deveriam ser passadas, se possível, no primeiro contato. Então, abaixo coloquei alguns conselhos sobre como pedir ajuda em estatística (não darei aqui conselhos sobre como analisar os dados, outras pessoas fizeram um trabalho muito melhor sobre isso).

Basicamente, eu diria que as seguintes informações precisam ser passadas, de forma resumida, em um pedido de ajuda (ou consultoria, né) estatística (e também para planejar um estudo):

Pergunta que se deseja responder

A análise estatística pode te dar a resposta que você procura. Mas, uma boa resposta precisa de uma boa pergunta (por exemplo, “a predação de ninhos é afetada por distância da borda?”). Usar uma análise para simplesmente extrair algo dos dados (uma situação como “Eu tenho estes dados sobre 15000 borboletas de uma área de cerrado e não sei o que fazer com eles”) é bem mais difícil, quando não impossível. E achar uma boa pergunta depende muito mais de conhecimento biológico do que de conhecimento estatístico. É claro que o correto é ter a pergunta bem clara na hora de planejar o estudo. Mas, nem sempre isso acontece. Às vezes fazemos um estudo sabendo o tema geral, mas, por algum motivo qualquer, não temos a pergunta bem definida, e isso é perfeitamente normal de acontecer, ao menos na graduação ou no mestrado. Ou às vezes o delineamento amostral por algum motivo não permite responder a pergunta desejada, e só percebemos isso quando é tarde demais. Nestes casos, o que recomendo – e essa é uma recomendação pessoal de um mero doutorando em Ecologia – não é pensar “Poxa, eu tenho estes dados, que teste será que posso usar neles?”, e sim “OK, eu tenho estes dados, será que existe alguma pergunta ecológica interessante que eu posso tentar responder com eles?”. Afinal, você coletou os dados, você estudou o táxon ou o ambiente em que eles foram coletados, então ninguém melhor que você para saber o que estes dados podem responder! Tendo a pergunta, aí sim é o momento de pensar em que teste estatístico usar.

Unidade amostral

Ouquei, temos a pergunta, vamos em frente! A unidade amostral é uma informação muito importante e que às vezes não é explicada, talvez por ser vista como óbvia pelo autor do estudo. Por exemplo, em um estudo sobre o efeito de um extrato vegetal sobre a germinação de sementes, a unidade amostral é cada semente, ou é cada conjunto de sementes em uma placa de Petri, ou é um conjunto de placas de Petri?… Novamente, isso depende da pergunta, e frequentemente é possível pensar em unidades amostrais de mais de uma forma. Mas se formos pensar em cada semente como unidade amostral, então o teste precisaria levar em conta a não-independência entre as sementes colocadas na mesma placa. O que seria esta não-independência? Bem, pode ser que uma placa esteja em um lugar ligeiramente mais iluminado (talvez por algum defeito na câmara de germinação), e aí as sementes nela germinarão mais rápido por causa dessa iluminação, não por causa do fator de interesse do estudo. E é algo difícil de controlar. Pode ser que isso não altere o resultado final, mas a possível não-independência é uma informação importante que deve ser levada em conta ao planejar a análise. Isso se aplica a outros estudos, como plantas localizadas em parcelas no cerrado, e assim por diante.

Natureza da variável-resposta

Qual é a medida, ou variável operacional, que você está usando? É uma variável contínua (e.g. altura), uma variável de contagem (e.g. número de indivíduos),uma variável categórica (e.g. espécie), uma variável binária (e.g. se um ninho foi predado ou não) ou uma variável de proporção (e.g. porcentagem de germinação)? Isso é uma informação essencial para determinar quais testes podem (e especialmente quais testes não podem) ser usados. Por exemplo, a famosíssima Análise de Variância deve ser usada basicamente com variáveis contínuas. Já para dados de contagem, podemos pensar em um qui-quadrado ou em um GLM. E outra questão importante é se é uma única variável-resposta, ou se são várias, o que implicaria em uma análise multivariada.

Natureza das variáveis explanatórias e replicação

OK, a variável-resposta foi definida, mas e as variáveis explanatórias? Elas são basicamente aquelas usadas para explicar a variação na variável-resposta. Podem ser tipos de tratamento; ou podem ser diferentes concentrações de um agente inibidor; ou podem ser variáveis ambientais medidas no local, como pH e umidade do solo; ou pode ser até mesmo a localização espacial das amostras. Normalmente as análises costumam ser menos restritivas para a natureza das variáveis explanatórias do que para a variável-resposta, mas saber, por exemplo, se elas são contínuas ou categóricas é bastante importante. E aqui entramos em outra questão, a replicação.

Replicação

É uma questão bastante importante para decidir o tipo de teste. Se as variáveis explanatórias forem contínuas, quantas réplicas, ou repetições, ou unidades amostrais temos, no total? Caso as variáveis explanatórias estejam distribuídas em grupos ou fatores (e.g. diferentes concentrações, pré-determinadas, de um agente inibidor), quantas réplicas temos para cada tratamento? Além disso, o delineamento amostral ou experimental é balanceado, ou seja, com o mesmo número de réplicas em todos os tratamentos? Dependendo do tamanho amostral, alguns testes não podem ser usados – pode ser que o teste não funcione com poucas amostras, ou tenha poder muito baixo; ou pode ser que o seu cálculo seja difícil demais para um conjunto muito grande de amostras.

Mais alguns detalhes

Finalmente, alguns detalhes específicos do delineamento amostral podem ser necessários. A forma de coleta – se a coleta de insetos foi feita com pratinho amarelo ou pitfall, por exemplo – muitas vezes é irrelevante. Já a forma como os pitfalls e pratinhos amarelos estão distribuídos faz diferença. Dependendo da distância entre eles ou da forma como eles são agrupados, pode ser necessário fazer um ajuste para autocorrelação espacial. Ou, se eles forem colocados em grupos, pode ser necessário fazer uma análise que leve em conta a pseudoreplicação entre eles, por exemplo um modelo misto. Se a mesma unidade foi medida em vários momentos do tempo, isso também precisa ser levado em conta, pois as diferentes medidas da mesma unidade amostral não são independentes. E assim por diante. De qualquer modo, um bom planejamento, que leve estes fatores em conta, é essencial, e nenhuma estatística será capaz de resolver os problemas de um estudo mal-planejado. 😉

Um exemplo

Este é um exemplo de como eu descreveria os dados que coletei no meu mestrado (neste caso não falei especificamente da unidade amostral porque me parece que ficou claro mesmo assim, mas é claro que posso estar enganado):

Eu coletei dados referentes a efeito de borda, ou seja, meu objetivo é saber como as variáveis ambientais estão relacionadas com a distância da borda do fragmento florestal. As variáveis-resposta são todas contínuas, e pretendo analisá-las separadamente; a variável explanatória é a distância da borda, medida em metros, podendo assumir 15 valores distintos (0, 2, 5..30, 40, 50…. 120, 150, 180 m). A amostragem foi feita em transectos, ou seja, parcelas (unidades amostrais) dispostas ao longo de linhas retas, indo de 0 a 180 m, e eu tive um total de cinco transectos, separados por uma distância aleatória entre 20 e 40 m.

Um conselho final

Levando em conta o dito acima, leve em conta para onde você vai mandar o pedido de ajuda. Se for um pedido de ajuda para alguém específico, por exemplo um professor ou colega mais experiente, recomendo escrever um email mais completo, com todas as informações acima. Por outro lado, se for um pedido de ajuda enviado, por exemplo, a uma lista de emails referente a algum software (por exemplo, a R-BR, dedicada ao software R, ou a lista de emails do software Past), recomendo um explicação bem curta, explicando em linhas gerais o problema estatístico, da forma o mais breve possível. Normalmente pedidos de ajuda em lista se referem a teste específicos, e portanto nem precisam de muitos detalhes. Além disso, um email curto tem maior probabilidade de ser lido por mais pessoas, e caso alguém veja o email e precise de mais informações, provavelmente ele ou ela irá escrever solicitando-as.

E só enfatizando…

Nenhum teste pode salvar um delineamento amostral ou experimental mal-planejado; por outro lado, um delineamento bom frequentemente permite que vários testes sejam aplicados. Portanto, planejar bem o estudo antes de começar é essencial. 😉

Um tributo

Saudações!

Finalmente resolvi montar um blog de assuntos acadêmicos. O nome dele está em inglês porque pretendo escrever postagens em inglês também… De um modo talvez um tanto aleatório, ou seja, quando for um assunto que possa ser de interesse mais amplo. Irei escrever aqui sobre assuntos relacionados a ecologia e a estatística, que são as minhas áreas de estudo. E, antes de começar a escrever, nada melhor do que fazer um tributo a outros blogs muito bons e que me inspiraram a criar ele!

Em primeiro lugar preciso citar o blog do professor Marco Mello (UFMG), Sobrevivêndo na Ciência. É um excelente blog com dicas e sugestões para cientistas iniciantes (e não tão iniciantes), falando sobre como planejar um estudo, sobe como analisar seus dados, sobre a relação aluno-orientador, etc. Recomendo a leitura dele para quem quer fazer ou está fazendo iniciação científica, mestrado, doutorado… E suspeito que ele possa ser especialmente úteis para “orientadores de primeira viagem”, auxiliando indiretamente no processo de orientar. Afinal, uma coisa é se preocupar apenas com o seu próprio projeto, mas se preocupar também com os projetos de outras pessoas requer uma visão bem mais clara de como fazer ciência, e este blog ajuda muito nisso.

(Coincidentemente, o Marco foi um dos melhores professores com quem já tive aula. Se alguém tiver oportunidade de fazer o curso de redes ecológicas dele, faça. Mesmo que você não tenha nenhuma intenção de trabalhar com redes ecológicas.) (Outros professores cujas disciplinas recomendo altamente é o professor Marco Antônio Batalha, da UFSCar, e o professor Nivaldo Nordi, também da UFSCar).

Um outro blog que tenho lido pouco, mas que parece ser muito bom, é o Dynamic Ecology. Inclusive, se você está aqui pensando “Mas por que um cientista iria gastar tempo lendo/escrevendo blogs? Ele não tem coisas mais importantes pra fazer?”, aqui está sua resposta!

Também recomendo o Recologia – Errando em Ecologia e Evolução. Um blog bastante didático sobre estatística usada em ecologia, com códigos para fazer as coisas no software R! (ouquei, tecnicamente o R é um ambiente, não exatamente um software, mas na prática podemos pensar que é um software).

E um outro blog que não poderia deixar de citar é o EcoEstudos, das doutorandas Fernanda Tibério e Talita Sampaio. O blog é exatamente isso que o título fala – estudos de ecologia, ou melhor, uma forma de auxiliar nos estudos. É um blog ainda no início, mas, por exemplo, a última postagem é um resumo bem legal dos primeiros capítulos do livro Biological Diversity, de Anne Magurran e Brian McGill.

E finalmente, posso citar os blogs de revistas, como a PLOS. Costumam ter sugestões bem interessantes para cientistas no geral.

Bem, existem muito mais blogs legais de ecologia por aí, aqui coloquei apenas alguns que eu leio ou já li e que posso recomendar com tranquilidade. E já que estamos falando de blogs, quero também indicar dois não-acadêmicos que falam de assuntos interessantes e úteis para a vida, e de cujo estilo eu gosto – o Zen Habits e o Collant Azul Royal.

Coming soon: Dicas para pedir ajuda em estatística. 😉