Quando menos é mais, e quando menos é menos: número de amostras VS esforço amostral

Disclaimer: Pode haver erros conceituais no texto abaixo. Se achar as informações dele relevantes, recomendo estudar por outras fontes também. Agradeço também se apontarem os erros ou imprecisões que encontrarem. 🙂

O que é melhor: colocar mais parcelas ou colocar parcelas maiores? Amostrar mais fragmentos de vegetação ou fazer uma amostragem mais intensa em cada um deles? Fazer medidas rápidas em um grande número de indivíduos ou fazer medidas mais precisas em um grupo menor de indivíduos?

Pensando na questão de replicação, é melhor ter mais amostras independentes. Não vou entrar neste quesito aqui, pois muito já foi escrito a respeito. Recomendo esse texto do Andrew Hendry e referências citadas nele (Se você ainda não leu o trabalho clássico do Hurlbert sobre pseudoréplicas, leia). Vou falar de uma outra questão hoje: quão precisas são as nossas medidas e como isso afeta os nossos resultados.

Mas por que isso afetaria os nossos resultados? Bom… Podemos pensar em termos de representatividade. Se você amostra uma única planta por fragmento florestal, por exemplo, ela é representativa da comunidade vegetal daquele fragmento? E se você amostra dez plantas? Vinte? Quinhentas? Não sei dizer a partir de quantas plantas temos uma amostra representativa, mas acho que ninguém discorda que quanto mais plantas, melhor.

Por outro lado, se, em uma paisagem de mata atlântica amostramos cinco fragmentos de tamanhos diferentes, podemos dizer que eles são representativos daquela paisagem? E quinze fragmentos? Cinquenta? Novamente, não sei qual é o número suficiente – e isso vai depende do grupo estudado e dos objetivos -, mas, via de regra, quanto mais, melhor.
Só que existe um tradeoff nisso. Seria lindo se pudéssemos fazer amostragens enormes em um número grande de fragmentos, ou colocar um número bem grande de parcelas também bem grandes nas nossas áreas de estudo, mas via de regra não temos tempo e dinheiro e paciência pra isso. Então como dividir o nosso esforço? Mais réplicas ou maior esforço por réplicas?

Podemos pensar em termos do erro-padrão (standard error), uma medida que mostra, em linhas gerais, a incerteza associada aos parâmetros estimados. Correndo o risco de cometer inexatidões técnicas, podemos pensar no erro-padrão como a variação que existiria nos resultados se o mesmo estudo fosse repetido mais de uma vez. Imaginem, por exemplo, uma terra com 2000 riachos, cada riacho contendo até 15-16 espécies de seres aquáticos. Digamos que o número médio de espécies por riacho é de 5.97. Se diferentes cientistas amostrarem, por exemplo, conjuntos de 20 riachos cada, os valores obtidos irão variar… Um estudo pode detectar em média 5.2 espécies, outro estudo pode detectar 6.4 espécies, etc:

erroamostral

A primeira figura mostra o número de espécies de seres aquáticos em cada um dos 2000 riachos da nossa terra simulada, e as duas figuras seguintes mostram os riachos que poderiam ter sido escolhidos aleatoriamente em duas pesquisas distintas. A média real é de 5.97 espécies por riacho (linha roxa); as médias obtidas nos dois estudos (linhas vermelhas) são de 5.2 e 6.4 espécies.

Na verdade, se muitos estudos forem realizados, a distribuição de parâmetros – no caso, número médio de espécies – seguirá uma distribuição normal:

histogramamedias

Distribuição de médias obtidas em um número grande de amostras, cada uma com 20 riachos simulados. A linha roxa mostra a média real da população (considerando os 2000 riachos simulados).

Ou seja… Há uma variação, uma incerteza associada aos nossos parâmetros. Para o erro padrão da média, se os dados seguirem uma distribuição normal, este erro pode ser calculado dividindo o desvio-padrão pela raiz do tamanho amostral.

Sim, eu falei pela raiz do tamanho amostral.

Portanto, quanto maior o tamanho amostral, menor vai ser o erro padrão e mais precisos serão os nossos resultados (mas isso a gente já sabia).

E pensando assim, se as nossas unidades amostrais forem, por exemplo, fragmentos florestais, é sempre melhor aumentar o N (tendo mais fragmentos) do que o esforço amostral (por exemplo número de indivíduos amostrados por fragmento), certo?

Bom… Não necessariamente. Ao pensar em estudos de ecologia da paisagem, precisamos pensar em algumas fontes de variação nos nossos dados. Uma das fontes de variação é o efeito no qual estamos interessados – por exemplo, como a porcentagem de cobertura florestal na paisagem afeta a nossa variável de interesse. Existe também a variação intrínseca, ou causada por fatores que não estamos medindo. E existe, finalmente, a variação causada por erro amostral. Erro amostral nada mais é do que a diferença entre os parâmetros estimados e os parâmetros reais devido ao fato de não amostrarmos a população inteira – basicamente, a diferença entre as médias reais e as observadas no exemplo dos riachos acima.

E, se reduzirmos o erro amostral, conseguimos também reduzir a variação dos dados – o desvio-padrão – e, consequentemente, o erro padrão! E assim podemos ter mais certeza nos nossos resultados. Podemos reduzir o erro amostral aumentando o esforço amostral por fragmento!

Estou confundindo vocês cada vez mais, né? 🙂

Para exemplificar, e entender, o que está acontecendo, fiz algumas simulações. Imaginei um estudo relacionando a cobertura florestal (40 fragmentos, com cobertura variando de 0 a 100%) com a altura de ents (que, de algum modo, pode ter valores negativos neste modelo… Talvez quando um ent começa a se transformar num huorn…). Podem trocar ents pela sua espécie de interesse. Resumidamente, a altura segue uma distribuição normal, com a média igual a cobertura * 0.05 e desvio-padrão de 5 – ou seja, o efeito, em geral, é pequeno:

tradeoffsnvseffort_full

Uma simulação da variação na altura de ents com cobertura florestal, com 40 fragmentos e 1000 ents por fragmento.

Como faríamos para estudar a relação entre altura dos ents e a cobertura florestal? (No caso, cobertura florestal poderia ser qualquer outra variável; a amplitude de variação pouco importa neste exemplo.) Um das formas é: escolher um certo número de fragmentos, abrangendo uma faixa ampla de coberturas; amostrar um certo número de ents por fragmento; calcular a altura média destes ents; e ajustar uma regressão linear entre a altura média e a cobertura florestal. Esta é uma das formas de trabalhar com dados que não sejam totalmente independentes, como seria de esperar dos ents de um mesmo fragmento (imagino, por exemplo, que ents vivendo próximos a Isengard tenham que ser mais altos pra resistir melhor aos ataques dos orcs, independentemente da cobertura florestal) (Pode substituir Isengard pelo impacto ambiental do seu interesse). Outra forma é usar modelos mistos, mas as simulações seriam um pouco mais complicadas.

Bom, simulei a primeira forma de amostragem, considerando quatro valores de tamanho amostral (N=10, 15, 20, 40 fragmentos) e cinco de esforço amostral (S=10, 30, 60, 100, 500 ents por fragmento). Neste cenário simples, obtemos as seguintes relações:

tradeoffsnvseffort

Relação entre altura média de ents e cobertura florestal, considerando diferentes números de ents amostrados por fragmento (s=10, 30 etc) e diferentes números de fragmentos amostrados (n=10, 15 etc). Quanto maior o esforço amostral e o tamanho amostral, mais evidentes os efeitos da cobertura florestal.

Reparem que podemos perceber melhor o padrão quando aumentamos o esforço amostral sem aumentar o número de fragmentos e também quanto aumentamos o número de fragmentos sem aumentar o esforço amostral. As duas formas me parecem de certa forma equivalentes. Sim, o esforço amostral aumenta mais (de 10 pra 100 e 500) do que o tamanho amostral (de 10 pra 40); fiz isso porque me parece ser realista. Triplicar o número de parcelas amostradas em um fragmento pode dar o mesmo trabalho que duplicar o número de fragmentos amostrados, pensando no tempo e custo do transporte, hospedagem, carros que atolam entre o Nada e o Lugar Nenhum, e assim por diante. 🙂

Olhando os gráficos pode ser meio difícil concluirmos algumas coisas, e uma única simulação também não permite tirar muitas conclusões. Então repeti o procedimento 5000 vezes e calculei duas medidas:

– O erro quadrado médio, calculado como (inclinação calculada – inclinação real)2/número de simulações; quanto menor este erro, melhor;

– A proporção de simulações que mostraram uma relação significativa (p < 0.05) entre a cobertura florestal e a altura dos ents. Sabemos que a relação de fato existe, pois foi assim que gerei os dados, então quanto mais simulações a detectarem, melhor.

Tabela 1. Erro quadrado médio (multiplicado por 1000 para facilitar visualização) para diferentes tamanhos (n – número de fragmentos) e esforços amostrais (s – ents por fragmentos), a partir de 5000 simulações para cada combinação de s e n.

n=10 n=15 n=20 n=40
s=10 2.70 1.99 1.47 0.79
s=30 0.90 0.65 0.49 0.26
s=60 0.45 0.32 0.25 0.13
s=100 0.28 0.19 0.15 0.08
s=500 0.05 0.04 0.03 0.02

Tabela 2. Proporção de resultados significativos para diferentes tamanhos (n – número de fragmentos) e esforços amostrais (s – ents por fragmento), a partir de 5000 simulações para cada combinação de s e n.

n=10 n=15 n=20 n=40
s=10 0.76 0.90 0.97 1.00
s=30 1.00 1.00 1.00 1.00
s=60 1.00 1.00 1.00 1.00
s=100 1.00 1.00 1.00 1.00
s=500 1.00 1.00 1.00 1.00

Em relação ao erro quadrado médio, aumentar o número de fragmentos ou o esforço amostral por fragmento parecem dar resultados similares. Assim, dobrar o tamanho amostral (30 para 60 ents por fragmento) ou o número de fragmentos reduzem pela metade o erro. Considerando que pode ser mais fácil medir vinte ents a mais (já estamos aqui mesmo) do que encontrar mais dez fragmentos (senhor Saruman, perdoe atrapalhar o seu trabalho do qual não estamos cientes e preferimos continuar assim, mas o senhor poderia pedir para os seus orcs não nos atacarem enquanto estamos na floresta próxima à sua torre? Obrigado.), aumentar o esforço amostral parece fazer sentido!

E no quesito significância? Bom, qualquer situação exceto a de menor esforço em menos fragmentos parece dar resultados satisfatórios. Com 20 fragmentos e 10 ents por fragmento já temos 97% de acerto; com 40 fragmentos ou com 30 ou mais amostras por fragmento temos umas taxa de acerto de 100%.

E isso tudo parece muito bonito e legal! Mas… (Sempre tem um mas…), até agora assumi que não há relação entre os ents nos mesmos fragmentos. Isso não é muito realista, afinal, um fragmento próximo a Isengard vai ter ents diferentes de um mais perto de Loth Lórien. Como podemos trabalhar com isso?

Uma das formas de lidar com a não-independência, ou a pseudoreplicação, é usando modelos mistos. Um dia escrevo algo sobre eles. Mas resumidamente, um tipo de modelo misto é o random intercept, ou intercepto aleatório. Este modelo assume que, além das relações que estamos estudando, o valor médio de cada fragmento – ou seja, o intercepto, o valor que o fragmento teria em cobertura florestal zero – varia aleatoriamente. O intercepto – ele em si um parâmetro estatístico – seria derivado de uma distribuição normal, com média zero e um certo desvio. Então simulei um segundo conjunto de dados adicionando esta fonte de variação: altura de ents segue uma distribuição normal, com a média igual à cobertura vezes 0.05, desvio igual a 5, e a isso somamos um valor que segue uma distribuição normal com média zero e desvio igual a 1. Isso é equivalente a simular uma distribuição normal na qual o intercepto segue uma distribuição normal com média zero e desvio igual a 1. O valor somado será o mesmo para todos os ents de um dado fragmento, e ele mesmo não tem relação alguma com a cobertura florestal.

tradeoffsnvseffort_randintercept_full

Não sei se dá pra perceber, mas a relação entre cobertura florestal fica menos evidente ao inserirmos um intercepto aleatório na simulação.

tradeoffsnvseffort_randintercept

Relação entre altura de ents e cobertura florestal, para diferentes esforços amosrais (s) etamanhos amostrais (n) com variação aleatória adicional entre os fragmentos. Independente do esforço amostral, não conseguimos ver uma relação muito clara.

Neste caso, aumentando o número de amostras por fragmento a visualização do efeito da cobertura não fica tão mais fácil. Fica um pouco mais fácil aumentando o número de fragmentos, já que isso meio que dilui os efeitos do fator aleatório. Reparem que isso é uma única simulação.

Na vida real, o intercepto aleatório faz muito mais sentido do que assumir que todos os pontos dentro de um fragmento são independentes. Afinal, sempre haverá alguns lugares com mais ou menos recursos. 🙂 E os padrões ficam mais difíceis de serem detectados, como podem ver nas figuras acima. Mas e numericamente?

Tabela 3. Erro quadrado médio (multiplicado por 1000 para facilitar visualização) para diferentes tamanhos (n – número de fragmentos) e esforços amostrais (s – ents por fragmentos), para o modelo de intercepto aleatório, a partir de 5000 simulações para cada combinação de s e n.

n=10 n=15 n=20 n=40
s=10 3.87 2.68 2.12 1.12
s=30 2.01 1.44 1.07 0.57
s=60 1.53 1.08 0.83 0.44
s=100 1.35 0.97 0.73 0.39
s=500 1.11 0.82 0.60 0.33

Tabela 2. Proporção de resultados significativos para diferentes tamanhos (n – número de fragmentos) e esforços amostrais (s – ents por fragmento), para o modelo de intercepto aleatório, a partir de 5000 simulações para cada combinação de s e n.

n=10 n=15 n=20 n=40
s=10 0.62 0.79 0.90 1.00
s=30 0.87 0.97 1.00 1.00
s=60 0.94 0.99 1.00 1.00
s=100 0.96 1.00 1.00 1.00
s=500 0.98 1.00 1.00 1.00

Neste caso, aumentar o esforço amostral de 10 para 500 ents por fragmento, com 10 fragmentos, – e eu não me atreveria a tentar medir 500 ents por fragmentos! – tem o mesmo efeito sobre o erro quadrado médio que aumentar de 10 para 40 fragmentos, com 10 ents por fragmento. Dobrar de 10 para 20 fragmentos não é mais tão pior do que triplicar de 10 para 30 ents. Bater na porta do Saruman não parece tão ruim agora…

Esta diferença fica ainda mais evidente pensando na significância. Com 40 fragmentos temos 100% de acerto; com 20 fragmentos temos 100% de acerto a partir de 30 ents por fragmento, e com 10 fragmentos chegamos a um máximo de 98% mesmo amostrando mais ents do que provavelmente existem em toda a Terra Média. Mas ainda assim, há margem para decisões – 20 fragmentos com 30 ents por fragmento ou 15 fragmentos com 60 ents por fragmento dão resultados similares tanto para o erro quadrado médio quanto para a significância.

Outra questão importante é o erro do tipo I – detectar um resultado significativo pelo acaso. Fiz simulações disso (definido efeito da cobertura em 0.00 ao invés de 0.05), e obtive entre 4 e 6% de resultados significativos independentemente dos tamanho amostral, esforço amsotral ou tipo de modelo. Isso é o esperado para um teste “que funciona”. Ou seja, neste caso específico, com as premissas das análises não sendo violadas, não há muito que se preocupar com erro do tipo I.

E finalmente, não incluí autocorrelação espacial nas simulações. Mas é possível que haja autocorrelação dentro de um fragmento – vai que os ents estavam em desfile organizados por ordem de altura, ou senão amostramos uma parte da área onde há mais luz e eles crescem mais. E também autocorrelação espacial entre os fragmentos – imagino que fragmentos menores estejam em regiões mais impactadas, próximo a Isengard, o que também afetaria a altura dos ents independentemente da cobertura florestal. Mas acho que os padrões gerais iriam se manter.

Os códigos das simulações estão disponíveis no meu github. 🙂

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s