Softwares estatísticos livres para ecologia

Um homem sábio (que eu não consigo lembrar quem é) uma vez disse que ecólogos são estatísticos de botas sujas. (Ou eu posso ter imaginado isso, mas não deixa de ser muito verdade!) Só que, por outro lado, ecólogas e ecólogos não costumam gostar muito de números, ou de entender bem os números mesmo quando gostam deles. Imaginem então fazer cálculos na mão! Eu pessoalmente acho que, com a complexidade de análises que usamos hoje em dia, cálculos manuais seriam impossíveis. Mas felizmente existem pessoas neste mundo que gostam de números e sabem programar e criar programas que podemos usar – de forma livre e gratuita!

Enfatizo aqui softwares livres porque eu pessoalmente gosto muito da ideologia dos softwares livres; e também porque eles frequentemente são muito bons, relativamente fáceis de usar, alguns têm a interface em português, outros têm manuais ou pelos menos algum material de suporte em português e, bom, são gratuitos, ou seja não precisamos pagar por eles e muito menos piratear! É claro que softwares pagos como Primer-E, Systat, Statistica… são muito bons, frequentemente mais poderosos do que softwares gratuitos e também mais fáceis de usar. Mas o custo deles impede seu uso por muitas pessoas, reduzindo inclusive a replicabilidade de estudos e a propagação de conhecimentos e habilidades científicas. E quanto ao uso de softwares piratas – bom, aí fica na consciência de cada uma e cada um.

Hoje falarei de três softwares de estatística geral (Past, Bioestat e R). Em posts futuros falarei de softwares para organização de dados; softwares para fins mais específicos, por exemplo para análise espacial; softwares para fazer gráficos científicos; e algumas coisas específicas sobre o R, embora haja muita, muita mesmo informação online sobre ele.

PAST

Quem me conhece, sabe que sou um fã incondicional do Past (gente, o Past é lindo. Sério, o Past é lindo. Usem, ou ao menos dêem uma chance, ao Past, pois ele é lindo), especialmente da sua versão mais antiga. O Past (o nome vem de Palaeontological Statistics, pois ele foi inicialmente desenvolvido para dados paleontológicos) é um programa bem leve; a primeira versão dele que usei eu recebi em um disquete, em 2007 (sim, ainda existiam disquetes em 2007!). Recentemente ele foi atualizado, e agora existem duas versões, sendo que a versão 3.x tem suporte também para Mac, não apenas para windows. A versão mais antiga, por outro lado, funciona bem em Linux com emuladores.

Past

Eu gosto do Past por vários motivos: ele é fácil de usar; ele é altamente didático; ele é versátil, no sentido de fazer uma grande quantidade de análises; e ele é livre (mas isso eu já falei acima, rs)! As análises que podem ser feitas nele incluem análises univariadas como estatística descritiva, teste t e outros testes para duas amostras incluindo testes pareados, ANOVA uni- e bifatorial e qui-quadrado; análises multivariadas, incluindo ordenações como PCA, CA, NMDS, análises de agrupamento e testes de hipótese como MANOVA e PERMANOVA; algumas opções de modelagem, incluindo regressão linear simples e RMA (reduced major axis, usada quando não há uma variável claramente independente e outra claramente dependente) e modelos de abundância de espécie; análises de diversidade, incluindo índices de diversidade, perfis de diversidade e diversidade beta; análises espaciais, incluindo densidade kernel, K de Ripley, I de Moran e estatística circular; análises de séries temporais, incluindo autocorrelação espacial e wavelets; e análises filogenéticas simples. Muitos testes são combinados com cálculos de significância ou intervalos de confiança obtidos por bootstrap ou permutação.

As únicas coisas que o Past deixa um pouco a desejar são seleção de modelos, para a qual a única opção boa que conheço é o R; e a qualidade dos gráficos. Inclusive o próprio desenvolvedor do Past recomenda usar algum programa de edição gráfica (uma opção livre é o Inkscape) para deixar os gráficos feitos no Past com qualidade de publicação.

Além disso, o Past conta com um manual bem detalhado, que explica tanto como usar o programa quanto o funcionamento geral do teste estatístico. A última versão do manual antes do Past 3.0 tem inclusive tradução para o português, e se tudo der certo no futuro a versão mais nova também terá.

Bioestat

O Bioestat, desenvolvido pelo Instituto Mamirauá, é outro programa livre para análises estatísticas, e ele tem uma grande vantagem para estudantes de graduação e pós-graduação neste nosso país: ele é em português! Minha descrição dele aqui será mais curta, porque nunca usei muito ele, mas é uma ferramenta poderosa que inclusive executa algumas análises que não existem no Past.

Bioestat

Assim como no Past, uma das facilidades do Bioestat é que os dados são inseridos diretamente na planilha do programa. Em comparação, existem diversos softwares que requerem que os dados sejam salvos em arquivos de texto antes de serem importados ao programa – o que por um lado exige um planejamento maior e pode favorecer que a análise estatística seja melhor planejada, por outro lado pode levar a confusão nos nomes dos arquivos e a um gasto de tempo maior executando a análise, sendo que esse tempo poderia ser melhor gasto estudando a análise e decidido qual análise é mais adequada aos seus dados. Além disso, o Bioestat fornece sugestões (bem básicas) para análise de dados em diferentes situações.

Bioestat2

O Bioestat também oferece análises para diferentes tipos de situação, incluindo, além de testes de hipóteses, estimativas de diferentes tipos de parâmetros, cálculos de intervalos de confiança por bootstrap, estatística circular, estatísticas de meta-análise, análise de sobrevivência, e diferentes formas de transformação de dados (inclusive por rank, ou seja, substituindo cada valor por sua ordem, do maior para o menor). O Bioestat também pode fazer uma boa variedade de gráficos. Finalmente, quando o Bioestat é instalado, um manual em PDF (e em português!) é instalado junto.

R

Eu não podia deixar de falar sobre o R neste post. Mas também não vou falar muito, porque o R merece um post inteiro para si.

R

Resumidamente, o R é um programa, ou um ambiente (não me perguntem a diferença), estatístico baseado em linhas de comando. Ou seja, ele não tem menus com as diferentes análises que ele faz, e não fornece sugestões de análises. Portanto, para usar o R, é preciso saber antecipadamente o que se deseja fazer – o que é algo bom, pois exige um estudo prévio, não sendo possível simplesmente tentar análises até que elas funcionem (uma ou um cientista ética ou ético via de regra não faz isso de qualquer modo, a não ser para fins de curiosidade metodológica). E a variedade de análises que podem ser feitas em R é essencialmente infinita, pois, além das funções incluídas com o pacote básico, existem muitos, mas muitos mesmo pacotes adicionais que podem ser instalados para atender necessidades específicas. Alguns exemplos de análises para as quais sempre uso o R são seleção de modelos (com pacotes nlmelme4mgcvbbmle), análise de séries temporais por wavelets (pacote wmtsa), e análises por permutação, bootstrap e simulações em geral (para as quais eu escrevo o meu próprio código).

E caso não haja um pacote que faça a análise desejada, a/o cientista não queira se dar ao trabalho de procurar um, sempre é possível programar a sua própria análise.  Eu fiz isso algumas vezes; é especialmente útil para análises por permutação, que podem ser programadas para se adequar aos seus dados e à sua pergunta. E devido à complexidade intrínseca do R, não existe um único manual, e sim uma série de tutoriais (escritos e em vídeo) sobre o programa, além de apostilas, tutoriais e livros – sim, livros – sobre como fazer um certo tipo de análise (modelos mistos, análise de séries temporais, o que quiserem) em R. Como introdução, eu recomendo essa série de tutoriais sobre programação em R, pois eu acredito que usar o R sem entender ao menos o básico de programação é altamente improdutivo.

Mas se o R faz tudo isso, por que usar outros programas então?…

Às vezes me perguntam isso; e às vezes tenho a impressão de que o uso de qualquer software que não seja o R é mal-visto, e quem o usa visto como uma pessoa preguiçosa que não quer aprender a usar um programa, e nem aprender a estatística, de verdade. Como alguém que só quer ter um valor de da forma mais rápida possível. (Tudo bem que muita gente quer mesmo… E essa gente usa o R tanto quanto outros programas, me arrisco a dizer).

A meu ver, a maior vantagem do R é a liberdade que ele te dá – você não fica mais restrito às opções de análises que existem em um determinado pacote estatístico, pois em R a variedade é muito maior, e sempre existe algum pacote que faz o que você quer.

Ou não…

Ou melhor, muito provavelmente existe um pacote que faz uma determinada análise; mas às vezes o tempo gasto para encontrar este pacote e entender como ele funciona simplesmente não compensa. E então ficamos restritos às análises que um subconjunto de pacotes do R faz… Enquanto um outro programa faria uma análise às vezes mais apropriada de forma mais simples e rápida! Um exemplo são as análises baseadas em matrizes de distâncias – o Past oferece de forma rápida e indolor uma variedade de medidas de distância que não são disponíveis de forma tão fácil em R (embora o pacote do R vegan seja muito útil nesse sentido).

E outro motivo, para mim, é que um uso eficiente do R requer ao menos conhecimentos básicos em programação, senão corremos o risco de simplesmente copiar e colar códigos sem entender o que eles fazem; e também um conhecimento ao menos intermediário dos testes que realizamos, senão corremos o risco de simplesmente mudar o código até que ele funcione sem entender direito o motivo (o que não é em nada diferente de ficar rodando diferentes análises a partir de um menu até que uma dê um resultado bonitinho).

Mas não me entendam mal – eu adoro o R, e eu acho que o uso do R devia ser ensinado na pós-graduação, e se possível, na graduação em biologia, ecologia e cursos relacionados. Mas eu acredito que outros softwares não devem ser relegados a um segundo plano; e que o ensino do R deve ser dissociado parcialmente do ensino de estatística, e a ele deve ser adicionado um ensino de programação – senão corre-se o risco de aprender a usar um único software, sem entender direito o porquê das coisas, ao invés de aprender a estatística propriamente dita.

E vocês?

Gostaria, se possível, que comentassem sobre que softwares estatísticos livres vocês usam; para satisfazer uma curiosidade pessoal, e para um dia escrever sobre eles também!