Softwares estatísticos livres para ecologia

Um homem sábio (que eu não consigo lembrar quem é) uma vez disse que ecólogos são estatísticos de botas sujas. (Ou eu posso ter imaginado isso, mas não deixa de ser muito verdade!) Só que, por outro lado, ecólogas e ecólogos não costumam gostar muito de números, ou de entender bem os números mesmo quando gostam deles. Imaginem então fazer cálculos na mão! Eu pessoalmente acho que, com a complexidade de análises que usamos hoje em dia, cálculos manuais seriam impossíveis. Mas felizmente existem pessoas neste mundo que gostam de números e sabem programar e criar programas que podemos usar – de forma livre e gratuita!

Enfatizo aqui softwares livres porque eu pessoalmente gosto muito da ideologia dos softwares livres; e também porque eles frequentemente são muito bons, relativamente fáceis de usar, alguns têm a interface em português, outros têm manuais ou pelos menos algum material de suporte em português e, bom, são gratuitos, ou seja não precisamos pagar por eles e muito menos piratear! É claro que softwares pagos como Primer-E, Systat, Statistica… são muito bons, frequentemente mais poderosos do que softwares gratuitos e também mais fáceis de usar. Mas o custo deles impede seu uso por muitas pessoas, reduzindo inclusive a replicabilidade de estudos e a propagação de conhecimentos e habilidades científicas. E quanto ao uso de softwares piratas – bom, aí fica na consciência de cada uma e cada um.

Hoje falarei de três softwares de estatística geral (Past, Bioestat e R). Em posts futuros falarei de softwares para organização de dados; softwares para fins mais específicos, por exemplo para análise espacial; softwares para fazer gráficos científicos; e algumas coisas específicas sobre o R, embora haja muita, muita mesmo informação online sobre ele.

PAST

Quem me conhece, sabe que sou um fã incondicional do Past (gente, o Past é lindo. Sério, o Past é lindo. Usem, ou ao menos dêem uma chance, ao Past, pois ele é lindo), especialmente da sua versão mais antiga. O Past (o nome vem de Palaeontological Statistics, pois ele foi inicialmente desenvolvido para dados paleontológicos) é um programa bem leve; a primeira versão dele que usei eu recebi em um disquete, em 2007 (sim, ainda existiam disquetes em 2007!). Recentemente ele foi atualizado, e agora existem duas versões, sendo que a versão 3.x tem suporte também para Mac, não apenas para windows. A versão mais antiga, por outro lado, funciona bem em Linux com emuladores.

Past

Eu gosto do Past por vários motivos: ele é fácil de usar; ele é altamente didático; ele é versátil, no sentido de fazer uma grande quantidade de análises; e ele é livre (mas isso eu já falei acima, rs)! As análises que podem ser feitas nele incluem análises univariadas como estatística descritiva, teste t e outros testes para duas amostras incluindo testes pareados, ANOVA uni- e bifatorial e qui-quadrado; análises multivariadas, incluindo ordenações como PCA, CA, NMDS, análises de agrupamento e testes de hipótese como MANOVA e PERMANOVA; algumas opções de modelagem, incluindo regressão linear simples e RMA (reduced major axis, usada quando não há uma variável claramente independente e outra claramente dependente) e modelos de abundância de espécie; análises de diversidade, incluindo índices de diversidade, perfis de diversidade e diversidade beta; análises espaciais, incluindo densidade kernel, K de Ripley, I de Moran e estatística circular; análises de séries temporais, incluindo autocorrelação espacial e wavelets; e análises filogenéticas simples. Muitos testes são combinados com cálculos de significância ou intervalos de confiança obtidos por bootstrap ou permutação.

As únicas coisas que o Past deixa um pouco a desejar são seleção de modelos, para a qual a única opção boa que conheço é o R; e a qualidade dos gráficos. Inclusive o próprio desenvolvedor do Past recomenda usar algum programa de edição gráfica (uma opção livre é o Inkscape) para deixar os gráficos feitos no Past com qualidade de publicação.

Além disso, o Past conta com um manual bem detalhado, que explica tanto como usar o programa quanto o funcionamento geral do teste estatístico. A última versão do manual antes do Past 3.0 tem inclusive tradução para o português, e se tudo der certo no futuro a versão mais nova também terá.

Bioestat

O Bioestat, desenvolvido pelo Instituto Mamirauá, é outro programa livre para análises estatísticas, e ele tem uma grande vantagem para estudantes de graduação e pós-graduação neste nosso país: ele é em português! Minha descrição dele aqui será mais curta, porque nunca usei muito ele, mas é uma ferramenta poderosa que inclusive executa algumas análises que não existem no Past.

Bioestat

Assim como no Past, uma das facilidades do Bioestat é que os dados são inseridos diretamente na planilha do programa. Em comparação, existem diversos softwares que requerem que os dados sejam salvos em arquivos de texto antes de serem importados ao programa – o que por um lado exige um planejamento maior e pode favorecer que a análise estatística seja melhor planejada, por outro lado pode levar a confusão nos nomes dos arquivos e a um gasto de tempo maior executando a análise, sendo que esse tempo poderia ser melhor gasto estudando a análise e decidido qual análise é mais adequada aos seus dados. Além disso, o Bioestat fornece sugestões (bem básicas) para análise de dados em diferentes situações.

Bioestat2

O Bioestat também oferece análises para diferentes tipos de situação, incluindo, além de testes de hipóteses, estimativas de diferentes tipos de parâmetros, cálculos de intervalos de confiança por bootstrap, estatística circular, estatísticas de meta-análise, análise de sobrevivência, e diferentes formas de transformação de dados (inclusive por rank, ou seja, substituindo cada valor por sua ordem, do maior para o menor). O Bioestat também pode fazer uma boa variedade de gráficos. Finalmente, quando o Bioestat é instalado, um manual em PDF (e em português!) é instalado junto.

R

Eu não podia deixar de falar sobre o R neste post. Mas também não vou falar muito, porque o R merece um post inteiro para si.

R

Resumidamente, o R é um programa, ou um ambiente (não me perguntem a diferença), estatístico baseado em linhas de comando. Ou seja, ele não tem menus com as diferentes análises que ele faz, e não fornece sugestões de análises. Portanto, para usar o R, é preciso saber antecipadamente o que se deseja fazer – o que é algo bom, pois exige um estudo prévio, não sendo possível simplesmente tentar análises até que elas funcionem (uma ou um cientista ética ou ético via de regra não faz isso de qualquer modo, a não ser para fins de curiosidade metodológica). E a variedade de análises que podem ser feitas em R é essencialmente infinita, pois, além das funções incluídas com o pacote básico, existem muitos, mas muitos mesmo pacotes adicionais que podem ser instalados para atender necessidades específicas. Alguns exemplos de análises para as quais sempre uso o R são seleção de modelos (com pacotes nlmelme4mgcvbbmle), análise de séries temporais por wavelets (pacote wmtsa), e análises por permutação, bootstrap e simulações em geral (para as quais eu escrevo o meu próprio código).

E caso não haja um pacote que faça a análise desejada, a/o cientista não queira se dar ao trabalho de procurar um, sempre é possível programar a sua própria análise.  Eu fiz isso algumas vezes; é especialmente útil para análises por permutação, que podem ser programadas para se adequar aos seus dados e à sua pergunta. E devido à complexidade intrínseca do R, não existe um único manual, e sim uma série de tutoriais (escritos e em vídeo) sobre o programa, além de apostilas, tutoriais e livros – sim, livros – sobre como fazer um certo tipo de análise (modelos mistos, análise de séries temporais, o que quiserem) em R. Como introdução, eu recomendo essa série de tutoriais sobre programação em R, pois eu acredito que usar o R sem entender ao menos o básico de programação é altamente improdutivo.

Mas se o R faz tudo isso, por que usar outros programas então?…

Às vezes me perguntam isso; e às vezes tenho a impressão de que o uso de qualquer software que não seja o R é mal-visto, e quem o usa visto como uma pessoa preguiçosa que não quer aprender a usar um programa, e nem aprender a estatística, de verdade. Como alguém que só quer ter um valor de da forma mais rápida possível. (Tudo bem que muita gente quer mesmo… E essa gente usa o R tanto quanto outros programas, me arrisco a dizer).

A meu ver, a maior vantagem do R é a liberdade que ele te dá – você não fica mais restrito às opções de análises que existem em um determinado pacote estatístico, pois em R a variedade é muito maior, e sempre existe algum pacote que faz o que você quer.

Ou não…

Ou melhor, muito provavelmente existe um pacote que faz uma determinada análise; mas às vezes o tempo gasto para encontrar este pacote e entender como ele funciona simplesmente não compensa. E então ficamos restritos às análises que um subconjunto de pacotes do R faz… Enquanto um outro programa faria uma análise às vezes mais apropriada de forma mais simples e rápida! Um exemplo são as análises baseadas em matrizes de distâncias – o Past oferece de forma rápida e indolor uma variedade de medidas de distância que não são disponíveis de forma tão fácil em R (embora o pacote do R vegan seja muito útil nesse sentido).

E outro motivo, para mim, é que um uso eficiente do R requer ao menos conhecimentos básicos em programação, senão corremos o risco de simplesmente copiar e colar códigos sem entender o que eles fazem; e também um conhecimento ao menos intermediário dos testes que realizamos, senão corremos o risco de simplesmente mudar o código até que ele funcione sem entender direito o motivo (o que não é em nada diferente de ficar rodando diferentes análises a partir de um menu até que uma dê um resultado bonitinho).

Mas não me entendam mal – eu adoro o R, e eu acho que o uso do R devia ser ensinado na pós-graduação, e se possível, na graduação em biologia, ecologia e cursos relacionados. Mas eu acredito que outros softwares não devem ser relegados a um segundo plano; e que o ensino do R deve ser dissociado parcialmente do ensino de estatística, e a ele deve ser adicionado um ensino de programação – senão corre-se o risco de aprender a usar um único software, sem entender direito o porquê das coisas, ao invés de aprender a estatística propriamente dita.

E vocês?

Gostaria, se possível, que comentassem sobre que softwares estatísticos livres vocês usam; para satisfazer uma curiosidade pessoal, e para um dia escrever sobre eles também!

29 pensamentos sobre “Softwares estatísticos livres para ecologia

      • Parabéns pela matéria!!! Durante a pós usei o R e o SAM, hoje, para os trabalhos de consultoria preciso agilizar os resultados devido aos prazos de entrega dos relatórios, então o Past é sempre uma boa pedida, visto que responde todas as questões relacionadas aos estudos…

        Curtir

      • Obrigado, emílio! Então, atualmente eu uso o R pra tudo, e com prática tudo pode ser feito bem rapidamente. Inclusive, para trabalhos de consultoria, pode até ser mais rápido fazer no R porque, se as análises são sempre mais ou menos as mesmas, dá pra fazer um script padronizado que vai automaticamente retornar as análises, gráficos e tabelas desejadas. Se tiver as manhas de usar LaTeX, dá até pra fazer com que o R faça gere um documento bonitinho com texto, fórmulas, figuras e todo o resto!

        Curtir

  1. Ótimo post! O meu programa estatístico favorito é o SPSS por causa da imensa variedade de análises que ele tem e interface muito didática, fora os excelentes helps, que são quase como guias rápidos de estatística. A desvantagem é ele ser pago e caro; sorte que a UFMG tem a licença de site e a disponibiliza para todos os professores e alunos de graça. Mas o PAST realmente é muito bom e free, sendo perfeito especialmente para cursos, já que todos os alunos podem instalá-lo. Comecei a experimentar o PAST há pouco tempo, por influência da Renata Muylaert. O R realmente é um caso à parte, sendo mais adequado para quem quer fazer análises personalizadas ou análises novíssimas que só foram implementadas nele. Outra vantagem do R é permitir criar grandes “receitas de bolo”, com rotinas de análises personalizadas para teses e artigos, que podem ser repetidas facilmente a cada adição, remoção ou correção de dados nas matrizes de base. O R é especialmente recomendado para os ecólogos mais matemáticos com um pé na programação, que querem inventar análises novas.

    Curtir

    • Oi Marco!
      Obrigado!
      Eu já tive algum contato (bem por cima) com o SPSS, e com o Primer-E (ajudando uma amiga), mas nada profundo… E concordo 100% sobre o R, principalmente na parte de análises personalizadas (usei muito no meu doutorado; a minha tese teria sido muito diferente sem a possibilidade de programar em R!). O que me leva a um possível assunto futuro, a importância de saber programar… rs

      Curtido por 1 pessoa

      • Estou adorando seus posts e no aguardo do assunto: saber programar.
        Estou começando a usar estatística agora e gostaria de ver em quais situações uso um teste ou outro…talvez fosse legal para nós leigos um tutorial dos passos que você utilizou para fazer
        os testes estatísticos de um determinado artigo, tcc, dentre outros.
        Obrigada por partilhar conosco sua experiência.
        abraços
        Stela

        Curtir

      • Oi Stela! :-)
        Obrigado pelas boas palavras!
        Pretendo escrever sobre programação… Quanto aos passos pra analisar um conjunto de dados, embora o certo fosse ter tudo definido antes, eu nunca consegui fazer isso… Basicamente porque sempre gosto de tentar coisas novas e não entendo bem o comportamento das análises que uso. Mas é uma ideia interessante, vou ver se escrevo algo sobre isso pensando em uns artigos específicos!

        Curtir

  2. Pingback: Qual teste estatístico devo usar? | Sobrevivendo na Ciência

  3. Olá Pavel. Ótimo texto. Parabéns.
    Tenho utilizado o R. No meu blog (labdendro.com/blog), as vezes escrevo sobre o assunto :) . Além dos aspectos positivos já comentados, destaco a possibilidade de replicabilidade das análises. Um script pode ser salvo para utilização futura e enviado para colegas, de forma que uma mesma análise pode ser replicada n vezes. Inclusive, várias revistas científicas publicam os scripts utilizados nos artigos, na forma de “material suplementar”.
    Abraço.

    Curtir

    • Oi Pedro,
      Muito obrigado!
      Isso é um ponto que eu tinha esquecido de comentar mesmo, a replicabilidade das análises. Inclusive costumo incluir meus scripts como material suplementar quando são algo novo, e minha tese de doutorado teve muitas páginas de código no final dela… Lembrarei disso ao escrever mais sobre o R, obrigado!
      Abraço!

      Curtir

  4. Olá Pdodonov, tenho acompanhado bastante seus posts sobre estatística. Sou Farmacêutico, e estou entrando no mundo da pesquisa somente agora que estou fazendo meu Mestrado. Vivo uma dicotomia, pois ao passo que sou apaixonado por Bioestatística não entendo quase nada sobre ele e muito menos sobre testes estatísticos. Comprei um livro chamado Bioestatística Descodificada para entender um pouco sozinho, mas é um livro que se propunha ser descomplicado que é muito complicado. rsrs. Gostaria que você me sugerisse algum livro bem didático que eu consiga estudar sozinho, principalmente que fale sobre os testes estatísticos (e em que situações eles são indicados para serem utilizados ou não). Meu sonho é fazer uma Especialização ou algum curso de longa duração em Bioestatística em Saúde. Conhece alguma instituição interessante para me indicar?
    Grande abraço e parabéns pelo trabalho.

    Curtir

    • Oi Diogo,
      Fico feliz que esteja acompanhando meus posts :)
      O melhor livro que eu conheço pra isso é o Estatística sem Matemática, do Magnusson e Mourão se não me engano. Inclusive saiu recentemente uma edição nova!
      E o livro do Gotelli, A Primer in Statistics ou algo assim, é bem legal. É mais voltado pra ecologia, mas acho que lhe poderá ser útil.
      Quanto a especializações no assunto, não conheço não… Mas acredito que existam, bioestatística em saúde é uma área bem importante!
      Abraços! Obrigado!
      – Pavel

      Curtir

      • Depende do que você entende por “explicar”… :-) Eles dão uma noção geral. Minha sugestão é ler eles, decidir que tipo de análise você quer fazer, e procurar informações sobre essa análise em livros mais avançados ou em artigos.

        Curtir

  5. Pingback: Qual teste estatístico devo usar? | Blog da BC

  6. Por que não existem softwares estatísticos com a interface do bioestat para Ubuntu?
    sempre estrago as coisas quando tento usar o Wine

    Curtir

    • Boa pergunta… Eu acho que porque 1) pessoal da bio/eco (e sociais também?) não costuma usar linux, e softwares como o Bioestat e Past são feitos por e para essas pessoas; tanto que o Past 3 funciona em windows e em mac (mais ou menos, rs); 2) pessoas da bio/eco que usam linux via de regra são usuários mais avançados que usam o R; 3) para quem desenvolve um software de bio/eco (e acho que estatística no geral), faz mais sentido fazer um pacote em R do que um software novo com interface gráfica; 4) quem trabalha no R muitas vezes tem preconceito contra GUI.

      Curtir

  7. Excelente Post! O R é completo, mas relativamente complexo para não estatísticos. Alguns outros softwares podem ser bem mais rápidos e simples, liberando um valioso tempo para o pesquisador ou o pós graduando estudar mais o seu objeto de pesquisa ou mesmo a estatística em si (e não apenas a ferramenta que vai calcular os testes). Recomendo sempre que se busque familiaridade com pelo menos 2 softwares estatísticos, seja um deles o R ou não.

    Curtir

    • Obrigado!
      Sim, concordo plenamente, muitas vezes vale a pena usar um software mais simples, e investir o tempo de estudo em outras coisas. Outras vezes vale o tempo investir em aprender programação, porque isso lhe dá mais flexibilidade e pode resultar em uma economia de tempo no futuro.
      A minha recomendação, na verdade, costuma ser que a pessoa domine bem uma ferramenta, ou um conjunto de ferramentas, para que consiga atuar de forma autônoma. Se a pessoa faz tudo em R, ou se faz metade em Calc, metade no Past, e o que resta em Origin – isso não faz diferença. Importante é saber o que se está fazendo e conseguir fazer isso. :-)

      Curtir

  8. Pingback: Não, você não precisa usar o R [e nem o R Studio] (mas o R é lindo [e o R Studio também]) – Mais Um Blog de Ecologia e Estatística

  9. Essa parte final foi bem interessante, pois só se fala em R… Mas as vezes temos um problema que talvez uma ferramenta mais simples pode resolver…

    Curtir

Deixe um comentário