Desenho amostral em ecologia de paisagens

Em estudos de ecologia, é importante darmos muita atenção ao planejamento amostral. Muita atenção mesmo. Tipo, de verdade. Realmente, de verdade, muita atenção mesmo.

Portanto, recomendo fortemente, mas muito fortemente mesmo, que vocês leiam (e releiam) esse artigo do Hurlbert, que explica o que são pseudoréplicas, porque elas são ruins e o que precisamos fazer para evitá-las (e convenhamos, o simples fato dele falar de intrusões demoníacas e de vigilância eterna é motivo suficiente para ler); e esse artigo do Oksanen, que dá exemplos de situações em que pseudoreplicação é justificável e termina falando para você ler o artigo do Hurlbert. Portanto, #leiaoHurlbert (e também #leiaoOksanen) .

De qualquer modo, abaixo alguma considerações minhas sobre amostragem em ecologia de paisagens.

Ao planejar um estudo, há três aspectos principais com os quais devemos nos preocupar: independência das unidades amostrais; fatores de confusão; e distribuição nas variáveis explanatórias. Se não tivermos independência, podemos concluir que existe uma relação significativa quando não existe; se tivermos fatores de confusão, podemos atribuir o efeito de uma variável que não medimos a alguma que medimos; e se não tivermos variação suficiente nas variáveis explanatórias, ou os seus valores não forem bem distribuídos, podemos não conseguir detectar efeitos que estão de fato aí ou ter os nossos dados muito influenciados por um ou dois pontos. Abaixo, um pouco mais sobre isso.

Independência (das amostras) ou morte (do seu estudo)

Análises estatísticas assumem que os pontos amostrados são independentes uns dos outros – ou seja, apenas sabendo o valor de um ponto não podemos prever o valor de outro. Essa é a premissa de praticamente qualque análise estatística que usemos – exceto análise de padrão espacial, que busca justamente modelar essa não-independência, e modelos mistos, que tentam incluir a não-independência no modelo (e às vezes até conseguem).

Vou simplificar e dividir aqui as violações de independência em dois grandes grupos (que não são indepedentes um do outro): pseudoreplicação e autocorrelação.

landscapeSampling_fig1.png

Na figura acima, as diferentes cores seriam diferentes usos da terra – por exemplo, matriz agrícola em cinza e dois tipos de vegetação em azul e verde. (Eu devia ter talvez usado cores melhores, mas, bom, o tempo pra trabalhar em posts é curto!) As bolinhas pretas são os pontos de amostragem – podem ser parcelas, armadilhas fotográficas, pitfalls, redes de neblina etc.

No exemplo da esquerda, as unidades amostrais abrangem boa parte da área e estão distribuídas em três grupos. Qual o problema disso? Bom, os pontos de cada grupo têm características similares de paisagem; mas eles também estão sujeitos a outros fatores que poderiam afetá-los. Por exemplo, um incêndio floresta atingiria os pontos do mesmo grupo de forma similar; ou os indivíduos podem ser geneticamente aparentados; ou mais alguma coisa que não levamos em conta. Pode ser praticamente impossível separar os efeitos destes fatores de confusão das nossas variáveis de interesse, e, para ser uma análise estatisticamente válida, a não-independência deve ser incluída no modelo – talvez incluindo o grupo como uma variável ou, havendo muitos grupos, como uma variável aleatória num modelo misto.

No exemplo da direita, os pontos estão distribuídos melhor pela paisagem – mas pode ser que a distância entre eles não seja suficiente. As linhas claras mostram quais pontos dependem de quais outros pontos: talvez esse seja a distância que um indivíduo da espécie de interesse anda, ou a distância até qual as sementes são dispersas, ou a distância até qual grupos coespecíficos se evitam. Neste caso, pontos próximos não são independentes uns dos outros, e a situação em realidade é mais complexa do que a exemplificada: quando mais próximo um ponto do outro, menos independentes eles são. Nos referimos a isso como autocorrelação espacial: autocorrelação porque a nossa variável-resposta está correlacionada com ela mesma em outra localidade. E se não levarmos a autocorrelação espacial em conta, podemos atribuir à paisagem efeitos que na verdade se devem à autocorrelação. Novamente, existem formas de incluir ela nos modelos – modelos mistos têm formas de incluir autocorrelação espacial; mas nem sempre conseguimos modelar ela, e, por exemplo, inclusão de autocorrelação em um GLMM impede o cálculo de AIC, ao menos nos principais pacotes em R. Não é por falhas do programa, é porque estas análises realmente não são triviais. Portanto, existe uma grande possibilidade de que você não consiga lidar com a autocorrelação ao analisar seus dados – faça o seu melhor para deixar suas unidades amostrais suficientemente distantes umas das outras.

Como definir a distância? O ideal é dados biológicos – por exemplo, a distância que uma espécie percorre, ou a sua área de vida. Na ausência de tais dados, bom, quanto mais os pontos estiverem espalhados (sem sair da sua região de interesse), melhor. E sim, estou ciente que o dinheiro é pouco, o tempo é curto e as estradas são ruins – faça o seu melhor, dentro dos limites do que é possível.

E a propósito – como entendo, isso não depende do tamanho dos buffers que você utiliza (um buffer é a área ao redor da sua unidade amostral onde você mede as variáveis explanatórias – quantidade de floresta, densidade de bordas etc). Isso porque o que importa é a autocorrelação nos resíduos, ou seja, naquilo que o seu modelo não consegue explicar. Se você usar buffers pequenos, mas a variável-resposta estiver autocorrelacionada numa escala mais ampla, você continua tendo problemas. Se você usar buffers grandes que se sobrepõem, você vai ter autocorrelação nas variáveis explanatórias – mas se as suas variáveis explanatórias explicarem bem as suas variáveis resposta, não haverá autocorrelação nos resíduos e está tudo bem. O problema é quando não conseguimos modelar a autocorrelação. Se a autocorrelação nas variável resposta se deve apenas à autocorrelação nas variáveis explanatórias, o modelo já irá levar isso em conta, e, para fins de análise, os pontos podem ser considerados independentes. Leiam este artigo para entender melhor.*

Fatores de confusão

Isso na verdade tem muito a ver com a não-independência exemplificada acima. Talvez você tenha interesse em examinar os efeitos da conectividade da paisagem sobre a abundância de sabiás; mas talvez outras coisas variem junto com a conectividade – talvez a densidade demográfica, ou o histórico de uso da terra – e seus efeitos se confundem. É importante, portanto, que fatores que podem afetar a sua variável de interesse, mas nos quais você não tem interesse, não covariem com a sua variável de interesse. Aleatorização é uma boa forma de (tentar) garantir que isso aconteça.

A recomendação aqui é pensar: Em quais variáveis explanatórias estou interessada? Que outras variáveis, nas quais não estou interessado, podem também afetar meus dados? Como posso fazer para que seus efeitos não se misturem?

Variação nas variáveis explanatórias

Finalmente, é importante que tenhamos variação suficiente nas nossas variáveis explanatórias. No exemplo abaixo, temos três amostragens simuladas da mesma população. A linha preta mostra o modelo ajustado, a linha cinza tracejada é o modelo real. Na primeira, a variável explanatória está distribuída uniformemente por toda a sua faixa de variação. O modelo estimado é similar ao modelo real, e uma relação significativa foi encontrada (p=0.003). Na segunda, a amostragem está concentrada em valores baixos de X – não havendo variação suficiente, nenhuma relação foi encontrada (p=0.98). Na terceira, a amostragem continua concentrada em valores baixos de X, mas foram incluídos dois pontos com valores altos. O modelo ajustado continua bem distante do modelo correto, e não foi significativo (p=0.43). Esse último caso também pode introduzir instabilidade no modelo – o ajuste pode ser muito influenciado pelo pontos com valores de X mais distoantes, principalmente se o tamanho amostral for pequeno.landscapeSampling_fig2.png

E aí entra também a questão de sobreposição dos buffers. Havendo sobreposição entre eles, você vai ter menos variação em X – portanto, sua análise vai ter um poder menor mesmo que os pontos sejam independentes.

Como escolher os sítios amostrais então?

Minha recomendação é: 1) garanta a independência entre eles, talvez definindo uma distância mínima com base em informações sobre a biologia do seu grupo de estudo, e 2) dentre as possibilidades de conjuntos de sítios amostrais, escolha os que maximizem a variação na sua variável explanatória. Ou seja, sim, você precisa calcular, ou ao menos ter uma noção, das variáveis explanatórias antes de ir pra campo. Minimizar a colinearidade entre elas também é legal. Estamos em processo de desenvolver um script em R para isso. Uma versão preliminar dele está aqui.

* Eu podia recomendar um site que permite baixar artigos de graça, mas não quero que a Elsevier me processe :-)

 

Um pensamento sobre “Desenho amostral em ecologia de paisagens

  1. Oi Pavel, tudo bem?

    Tenho uma pergunta, que está voltada à estatística mas foge do tema da ecologia aqui proposto, rs, mas é o seguinte: eu preciso coletar amostras para validar uma classificação de uso e ocupação do solo, a qual eu fiz a partir da amostragem de 80 objetos para cada classe de uso (4 classes), totalizando 320 amostras; porém, eu não sei qual quantidade de amostras para a validação eu devo coletar, que seja representativa da minha área de estudo… seriam também 80 amostras para cada classe? Ou, há alguma fórmula para eu obter esse número de amostras? Tudo isso é para eu conseguir gerar uma matriz de confusão e aplicar um índice de medida de concordância.
    Parabéns pelo blog!

    Abraço! :D

    Curtir

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s