Juntando gráficos em R

Frequentemente precisamos fazer figuras com mais de um gráfico nelas. Estou com preguiça de pensar em exemplos, então vou falar em termos bem gerais mesmo. Então, digamos que você tem seis variáveis-resposta que quer relacionar com uma variável explanatória. Como estou com preguiça de usar dados reais, vamos fazer umas simulações bem simples:

x <- runif(42, 0, 10)
y1 <- rnorm(42)
y2 <- rnorm(42, x, 3)
y3 <- rpois(42, exp(x/10))
y4 <- rnorm(42, 15 + x - 10*x^2, 5)
y5 <- exp(rnorm(x))
y6 <- rpois(42, lambda=5)

Nossa variável x vai ser uma distribuição uniforme, variando de 0 a 10. y1 não tem relação com x; y2 tem relação linear; y3 segue uma distribuição de Poisson, com o parâmetro lambda igual a exp(x/10); y4 é uma função quadrática de x; y5 é uma função exponencial de x; e y6 segue uma distribuição de Poisson, sem relação alguma com x.

Como botar isso tudo numa figura só? E como fazer com que isso tudo seja automaticamente salvo no computador?

Para isso, vamos usar os comandos png, par, plot, mtext, e dev.off.

O comando png cria uma arquivo, no formato .png, onde a figura será feita. Ou seja, ao invés de fazermos a figura e a salvarmos em um arquivo, primeiro criamos o arquivo, e depois salvamos a figura nele. Os argumentos são: filename, onde colocamos o nome do arquivo; height, ou a altura da figura; width, ou a largura da figure; unit, que são as unidades em que a altura e a largura são medidas; e res, que é a resolução em dpi (dots per inch, ou pontos por polegada).

Depois usamos o comando par. Este comando define parâmetros gerais da figura a ser feita. Uma coisa que pode ser feita é criar uma figura com espaço para vários gráficos. Assim, se temos seis gráficos, podemos distribuir ele em três linhas e duas colunas; para isso, usamos o argumento mfrow=c(3,2). Se quiséssemos 3 colunas e duas linhas, seria mfrow=c(2,3). Se quiséssemos duas colunas e três linhas, mas com o gráfico 2 abaixo do gráfico 1 (e não do lado), seria mfcol=c(3,2). Ou seja, primeiro as linhas, depois as colunas.

Outros argumentos importantes no par são mar e oma. O argumento mar define o tamanho das margens internas, ou seja, entre cada gráfico e os limites do seu espaço. O argumento oma define as margens externas – entre o conjunto dos gráficos e os limites da figura. As margens é onde vão informações como nomes dos eixos, títulos dos gráficos, escala, etc. Veja figura abaixo. Os tamanhos das margens podem variar, e são sempre especificados na seguinte ordem: abaixo, à esquerda, acima, à direta. Então oma=c(4,3,2,1) significa que teremos 4 linhas abaixo da figura, 3 à esquerda, 2 acima e 1 à direta.

multiplasFiguras.png

Disposição das figuras ao usarmos o comando par(mfrow=c(3,2))mar representa margens internas, oma representa margens externas. Sempre na seguinte ordem: embaixo, à esquerda, acima, à direita.

Tendo definido o espaço, usamos comandos plot para fazer os gráficos. E depois de fazer os gráficos, podemos colocar texto nas margens externas. Por exemplo se as variáveis x e y usarem as mesmas unidades de medida em todos os gráficos, não há motivos para repetir elas em todos os gráficos. Assim, podemos usar o comando mtext, que adiciona texto às margens das figuras. Usando o argumento side, definimos o lado (1 em baixo, 2 à esquerda, etc). Colocando outer=T definimos que o texto irá nas margens externas.

Como fica isso tudo então? Assim!

png(filename="figura1.png", height=20, width=20, unit="cm", res=300)
par(mfrow=c(3,2), mar=c(3,3,2,2), oma=c(3,3,2,2))
plot(y1 ~ x, main="Gráfico 1")
plot(y2 ~ x, main="Gráfico 2")
plot(y3 ~ x, main="Gráfico 3")
plot(y4 ~ x, main="Gráfico 4")
plot(y5 ~ x, main="Gráfico 5")
plot(y6 ~ x, main="Gráfico 6")
mtext(side=1, text="Meu eixo X lindo", outer=T)
mtext(side=2, text="Meu eixo Y lindo", outer=T)
dev.off()

O comando dev.off() serve para salvar a figura. Sem ele, o arquivo terá sido criado mas não poderá ser aberto. Nunca esqueçam do dev.off!

figura1.png

Ou seja, nada mais de ficar copiando e colando no power point pra juntar figuras! Usem o comando par e sejam felizes 🙂 Se tivéssemos deixado as margens internas (mar) maiores, os nomes dos eixos também seriam colocados automaticamente dentro de cada gráfico.

Por hoje é só, pessoal!

Anúncios

Machismo estatístico (tradução)

Estes são dois textos que considero clássicos, escritos por Brian McGill (do blog Dynamic Ecology), sobre o que ele chama de “machismo estatístico”. Essa na verdade não é a tradução perfeita – um melhor termo provavelmente seria algo como “machão-ismo estatístico”, porque não se trata de discriminação contra mulheres, mas sim de uma tendência de querermos ser muito machões e usar análises estatísticas complexas que mostrem que somos mais macho do que a concorrência (rs). Com a permissão de Brian, traduzi os textos para a última flor do lácio – não é justo que esses clássicos da blog-literaturatura ecológica estejam indisponíveis para quem não fala inglês. 🙂

Machismo estatístico?

Publicado por Brian McGill em 11 de setembro de 2012, no Dynamic Ecology.

Serão ecológos/as muito machões quando se trata de métodos estatísticos? Eu uso a palavra machões em um sentido puramente gênero-neutro – uso ele para significar “assumir uma postura para mostrar quão durão você é e se colocar no topo da hierarquia”.

Pela minha experiência, ecólogos/as têm uma longa lista de abordagens estatísticas que “precisam ser usadas” e que são mais complicados do que métodos mais simples sem necessariamente mudar o resultado. Essa para mim é uma atitude “machão” em relação à estatística – “o meu artigo é melhor porque eu uso estatísticas mais pesadas”. Isso tem uma dinâmica de Rainha-de-Copas – o que começa como um sinal de superioridade eventualmente se transforma em algo que revisores/as esperam de todos os papers. Mas frequentemente, se pensarmos um pouco, não há nenhuma razão para que esta análise seja necessária em um caso particular (o revisor que a pede está tão longe do desenvolvimento da abordagem que eles esqueceram para que ela é de fato usada). E mesmo que a abordagem mais complexa possa ser relevante, ela pode ser custosa de implementar mas frequentemente ter um impacto muito baixo sobre os resultados finais. Assim o que começa como machismo estatístico se transforma em tempo perdido pela exigência dos revisores. Aqui estão alguns dos meus exemplos favoritos:

  • Correções de Bonferroni – Devemos tomar cuidado com comparações múltiplas e a possibilidade de aumento do erro do tipo I. No entanto, isso acaba sendo violentamente exagerado. Em primeiro lugar, frequentemente é dito para usar o método de Bonferroni, o qual se sabe que erra para o outro lado, sendo excessivamente conservador. Em segundo lugar, ele é usado sem pensar de fato sobre por que ele pode ser necessário. Me lembro de um colega que tinha medido em torno de 35 caracteres florais em duas populações. Em torno de 30 caracteres se mostraram significativamente diferentes. Revisores falaram para fazer uma correção de Bonferroni. Para qualquer pessoa que entende questões biológicas e a estatística envolvida, uma correção de Bonferroni não faria qualquer diferença na resposta final (Beleza, apenas 26 dos 35 caracteres serão significativamente diferentes depois da correção, mas vamos então agora concluir que as populações não se diferenciaram?). Agora se apenas 2 ou 4 de 35 foram significativos com p<0.05, então alguma correção apropriada certamente é necessária (mas neste caso a conclusão provavelmente deve mudar independentemente do resultado da correção de Bonferroni). Mas se 30 de 35 foram significativas, ainda vamos perder tempo fazendo essas correções?
  • Correções filogenéticas – Toda vez que seus dados representam diferentes espécies (i.e. análise comparativa), espera-se que você use alguma versão de PIC (phylogenetically independent contrasts – contrastes filogeneticamente independentes) ou regressão GLS. Eu sei que existe um punhado de histórias clássicas que se revereteram quando PICs foram usados. Mas agora espera-se que pessoas criem uma filogenias antes que elas consigam publicar qualquer análsie comparativa. Mesmo não havendo filogenias de qualidade para muitos grupos. E sendo que os métodos assumem que as filogenias não têm erros, sendo que elas têm. E mesmo quando o p-valores são <0.0000001 e provavelmente não vão mudar sob padrões evolutivos realistas. Uma vez me falaram que eu tinha que usar regressão fiologenética quando a minha variável dependentes era a abundância de uma espécie. Agora, de todos os traços que não são fiologeneticamente conservados, abundância está no topo da lista (existem dados publicados dando suporte a isso), garantindo que não poderia haver um sinal filogenético nessa regressão. Quando eu argumentei isso, meu protagonista eventualmente recaiu sobre “bem, é assim que se faz ciência de qualidade” para justificar por que eu ainda deveria fazê-lo – não havia ligação com questões reais.
  • Regressão espacial – Cada vez mais revisores/as estão exigindo alguma forma de regressão espacial se os seus dados (especificamente os seus resíduos) têm estrutura espacial. É verdade que tratar os seus pontos como se eles fossem independentes quando eles na verdade são espacialmente autocorrelacionados pode levar a erros do tipo I. Mas isso geralmente não muda o seu p-valor em ordens de magnitude em situações de vida real, e muitas regresões espaciais têm centenas de pontos e p-valores com 5 ou 6 zeros. Essas regressões ainda serão significativas depois de aplicar um GLS espacial. E, aqui está o ponto importante – ignorar a autocorrelação espacial não adiciona viés às suas estimativas de inclinação em condições normais (no máximo as torna menos eficientes) – de modo que ignorar a autocorrelação não vai adicionar erros ao estudo dos parâmetros da regressão. É possível usar métodos mais simples para ajustar os graus de liberdade, e portanto o p-valor, sem fazer regressão espacial. Incidentalmente, eu acho que o mais interessante a se fazer com autocorrelação espacial é enfatizá-la e estudá-la como sendo informativa, e não usar métodos estatísticas que a “corrigem” e lhe permitem ignorá-la – eu também diria o mesmo sobre correlação filogenética. Note que esses argumentos também se aplicam a séries temporais.
  • Erros de detecção – Estou cada vez mais encontrando isso com o uso do Breeding Bird Survey. Toda vez que você estima a abundância de organismos que se movimentam, você às vezes vai deixar de detectar alguns. Isso é uma fonte de erro de medida para estimativas de abundância, e é conhecida como erro de detecção. Existem técnicas para estimar o erro de detecção, mas – e aqui que está o problema – elas efetivamente exigem medidas repetidas de essencialmente o mesmo ponto de dados (i.e. mesmo tempo, localização e observador) ou amostragem baseada em distâncias onde a distância até cada organismo é registrada, ou muitas covariáveis. Isso claramente reduz o número de sítios, espécies, períodos e outros fatores de interesse que conseguimos amostrar, e é portanto muito custoso. E mesmo que você esteja disposta/o a pagar o preço, não é algo que pode ser feito retroativamente em um conjunto de dados histórico como o Breeding Bird Survey. O cáculo dos erros de detecção também exige premissas não-realistas, tais como de que a população é fechada (mais ou menos como assumir que uma filogenia não tem erros). Agora, se queremos fazer afirmações fortes sobre como a abundância caiu de abundância baixa para zero, erros de detecção são um problema real (veja o debate se o pica-pau-bico-de-marfim está extinto). Erro de detecção também pode ser crítico se queremos afirmar que a espécie críptica X é mais rara do que a espécie barulhenta e de cores brilhantes Y, já que as diferenças nas probabilidades de detecção enviesam o resultado. E erro de detecção sem dúvida enviesa resultados de ocupação de sítios para baixo (podemos apenas deixar de detectar indivíduos com erro de detecção), mas isso assumindo que o erro de detecção é a única ou a mais importante fonte de erro de medida (e.g. contar erroneamente o mesmo indivíduo duas vezes poderia acidentalmente cancelar o erro de detecção). Mas se estamos olhando para questões macroecológicas abrangentes, primariamente comparando a variação em uma espécie ao longo do tempo ou do espaço, é difícil imaginar um cenário em que o erro de detecção é mais do que simplesmente muito ruído.
  • Métodos Bayesianos – isso é algo misto (Jeremy já discutiu a sua visão sobre abordagens Bayesianas aqui e aqui). Houveram inovações reais em métodos computacionais que foram permitidas por abordagens Bayesianas (e.g. modelos hierárquicos de processo sensu Clark et al.). Mas, mesmo nestes casos, em muitos casos a inovação real é o uso de Markov Chain Monte Carlo (MCMC) para resolver verossimilhanças complexas – não métodos Bayesianos. (Fugindo um pouco do assunto, na minha opinião, para algo ser realmente Bayesiano sensu stricto é preciso que tenhamos a-prioris informativos, que ecólogos raramente têm, mas eu conheço outas pessoas que gostam das diferenças filosóficas entre intervalos de credibilidade e intervalos de confiança, etc). Mesmo com estes benefícios, eu já revisei artigos em que uma abordagem Bayesiana foi usada para fazer o que era basicamente um teste-t de duas amostras ou uma regressão multivariada ou até mesmo ou modelo linear hierárquico misto (tá, o último é complicado mas, para a maior parte das pessoas, menos complicado do que o equivalente Bayesiano). Aparentemente eu devia me impressionar em o quanto o artigo era melhor porque ele era Bayesiano. Nada disso. A melhor estatística é aquela que é entendida pelo maior número de pessoas e boa o suficiente para o problema em questão.

Todas essas técnicas compartilham as seguintes características:

  1. Elas frequentemente são mais complexas de serem aplicadas do que a alternativa mais simples e bem conhecida
  2. Elas são entendidas por um círculo muito menor de leitores/as – na minha visão, intencionalmente reduzindo a sua audiência é um pecado capital na conmunição científica se feito sem necessidade (mas eu secretamente suspeito que essa é a principal razão para muitas pessoas fazerem isso – o quanto menos pessoas te entendem, de mais coisas você consegue se safar…)
  3. Eles frequentemente exigem dados adicionais que são impossíveis ou caros de se obter (filogenias, medidas repetidas para detecção). Às vezes os dados (e.g. filogenias) ou as premissas (populações fechadas em análise de detecção) estão eles mesmos cheios de erros, mas aparentemente podemos ignorar isso. Eles também podem exigir novos softwares e grande poder computacional (e.g. Bayesiano).
  4. Eles reduzem poder em um sentido estatístico, tornando o p-valor mais fraco, assim significando que, em média, precisaremos coletar um pouco mais de dados e simultaneamente homenageando p-valores ao invés de coisas importantes como a proporção de variância explicada e o tamanho de efeito, e também erroneamente dando prioridade ao erros do tipo I ao invés de erros do tipo II.
  5. No geral, em grande quandidade de artigos, eles não têm mudado fundalmentalmente o nosso entendimento de qualquer área de ecologia que eu me lembre (ou mudado a interpretação de maior parte dos resultados em artigos individuais).

Resumindo, o nosso machismo estatístico coletivo nos fez exigir métodos estatísticos que são um fardo para a nossa área de ecologia, permitindo que eles se tornem (ou rapidamente estejam se tornando) firmemente estabelecidos como algo que você “precisa fazer” para publicar e para ser visto como ciência de alta qualidade. Eu não tenho objeções para a existência dessas ferramentas para quando realmente precisamos delas ou questões válidas surgem. Mas poderíamos por favor parar de insistir, reflexivamente e sem pensar, que cada artigo que poderia talvez usar estes métodos os use? Especialmente, mas não apenas, quando podemos dizer antecipadamente que estes métodos não terão efeito. A sua implementação tem custos reais (e às vezes intransponíveis).

Para tornar isso construtivo, éis as minhas sugestões:

  1. Para as questões relacionadas ao erro do tipo I (Bonferroni, regressão espacial, temporal e filogenética), eu diria: a) para de desperdiçar o nosso tempo quando p-0.00001 – ele não vai se tornar não-significativo* (ou no mínimo quem tem que provar isso é o revisor, argumentando alguma patologia altamente não-usual nos seus dados que torne o a correção ser mais importante do que o usual o que viés de estimativa está sendo introduzido). Se p está mais perto** de 0.05, então, bem, tenha uma conversa racional se teste de hipótese com p<0.05 realmente é o foco principal do artigo e quão difícil vai ser obter os dados para fazer o teste adicional VS a importante da ciência, e esteja aberto a argumentos de por que o teste não é necessário (e.g. sabendo que não há sinal filogenético na variável sendo estudada).
  2. Para erros de detecção, use o senso comum se erros de detecção devem mudar o resultado ou não. Em alguns casos deverão mudar, em outros não. Não acabe com a ciência feita usando conjuntos de dados que não permitem a estimativa de erros de detecção.
  3. Para abordagens de Bayesianas – de simples respeito à sua audiência, não use métodos Bayesianos quando uma abordagem mais simples funciona. E se você vai usar uma abordagem complexa que exige cálculos Bayesianos, seja claro se você está usando isso apenas como um método de cálculo das verossimilhanças ou se você realmente está usando a-prioris informativas e toda a filosofia Bayesiana. E o fardo ainda é justificar que você respondeu uma questão ecologicamente interessante – incluir um método Bayesiano não te permite ignorar esta questão.

Para os leitores/as que tiverem objeções a isso como uma forma de devolver um senso comum à estatística na ecologia, lhes desafio a demonstrar que essas técnicas fundamentalmente melhoraram o nosso entendimento ecológico. Eu sei que isso é uma afirmação provocativa, então não se contenham. Mas por favor não: 1) Me digam que temos que fazer o teste “porque sim” ou porque “estatísticos concordam” (eles não concordam – a maior partes dos estatísticos/as entendem as forças e fraquezas dessas abordagens bem melhor do que ecólogos/as) ou que viola as premissas (a maior parte das estatísticas relatadas viola alguma premissa – a questão é se elas violam as premissas de uma maneira importante); 2) não assuma que sou um idiota estatístico e que não entendo as implicações do erro do tipo I, etc; e 3) Por favor se dirija às minhas questões-chave sobre o custo real de implementar essas técnicas e como elas melhoram o estado do conhecimento ecológico (não satifação de premissas estatísticas) o suficiente para justificar o custo. Caso contrário, direi que és culpado de machismo estatístico!

(Nota de Pavel: Os comentários postados sobre o texto original são bem interessantes, recomendo a leitura)

*(Nota de Pavel: se você usa um GLM com distribuição de Poisson, e obtem um p-valor extremamente baixo, isso pode sim ser causado por violação de premissa, e uma correção para superdispersão pode transformar um p<0.00000001 em um p=0.001 ou até mesmo p=0.03 ou maior – veja aqui)

**(Eu proporia um corte de uma ordem de grandeza – apenas se preocupar com correções para erro do tipo I se p>0.005, e eu acho que isso é conservador baseado em o quanto eu vi essas correções mudarem p-valores)

Tirando o machismo estatístico da belicosidade do Twitter

Publicado por Brian McGill no Dynamic Ecology em 14 de novembro de 2017

O post de semana passada sobre quão difícil as estatísticas são de ler e entender me fez perceber que o termo “machismo estatístico” cresceu e se transformou bastante do que eu tinha em mente originalmente. Um comentador do blog notou que agora ele tem a frase “machismo estatístico” endereçada a ele quando ele trabalha desenvolvendo novos métodos estatísticos. E um comentador no twitter implicou que machismo estatístico se tornou sinônimo de “tirar sarro de estatísticas complexas”. Ambos estes usos me horrificam. O que me levou a uma nova palavra: twitterizar – verbo – se tornar extremamente simplista, branco-no-preto, como na frase “machismo estatístico se tornou twitterizado muito além do seu significado original”. (Obs: aparentamente a palavra twitterized já é usada em outro sentido mas é claro que prefiro o meu).

Então, estou ciente de que, assim como na ciência, onde você não tem pleno controle sobre como um artigo é percebido depois que ele é liberado, eu não tenho controle sobre como o termo “machismo estatístico” é usado. Mas ao menos tenho que tentar…

Se você ler meu post original você verá que machismo estatístico não é um julgamento absoluto de qualquer técnica estatística em particular. E, seriamente, se você duvida disso, vai lá e leia os primeiro parágrafos do meu post original. Qualquer técnica pode ser usada com machismo estatístico, até mesmo ANOVA. E mesmo que eu tenha nomeado alguma técnicas-candidato, eu explicitamente falei que todas as técnicas mencionadas têm usos muito válidos (muitos dos quais eu mesmo tenho aplicado). Eu nomeei algumas técnicas para início de conversa e porque, na minha percepção, essas são as técnicas que são mais provável de serem usadas de um jeito machão, mas toda técnica que eu tenha mencionado no contexto de machismo estatístico é uma técnica perfeitamente boa. Não existe qualquer técnica que seja machismo estatístico por si. Elas simplesmente às vezes são usadas de formas ruins.

Eu mesmo provavelmente sou culpado de não tomar cuidado com essa distinção entre a técnica e a atitude machão em alguns dos meus últimos posts sobre o tópico. Especialmente nos títulos, embora no geral eu era bem cuidadoso (mas com certeza não perfeito) no texto. Por exemplo, no primeiro parágrafo do meu post sobre probabilidade de detecção, eu claramente afirmei que “Em nenhum momento eu falei que essas técnicas eram ruins ou nunca deveriam ser usadas. Mas eu falei que em muitos casos chegamos a um ponto em que essas técnicas se tornaram um sine qua non da publicação – revisores não deixariam artigos passar se essas técnicas não fossem aplicadas, mesmo que a sua aplicação fosse muito custosa e improvável de mudar os resultados.”

A questão fundamental é essa. Machismo estatístico não é um conjunto de técnicas estatísticas complexas. Machismo estatístico é uma atitude. Muitos usuários de estatísticas avançadas não têm essa atitude. E muitos usuários de alguns métodos estatísticos bem básicos a têm.

Os dois componentes-chave de uma atitude de machismo estatístico são:

1) O meu jeito é o único jeito certo – estatística se trata de tons de cinza e julgamento. Você já usou um teste que assume normalidade mesmo que os dados não tenham caído perfeitamente sobre uma linha num Q-Q plot? A maior parte das pessoas já. Isso é porque estatísticas são bagunçadas. Dados ecológicos são bagunçados. É raro ter conformidade completa com todas as premissas. E na maior parte dos casos (como no exemplo da normalidade) há simulações mostrando que isso não importa muito contanto que os dados não sejam assimétricos demais. Machismo estatístico é um revisor que sugere um método em particular, e quando o autor fornece uma explicação cuidadosa de por que não fizeram desse jeito, o revisor volta com linguagem impositiva de que “tem que ser feito desse jeito” sem reconhecer que essa é uma discussão legítima a se ter. Machismo estatístico é não reconhecer que muitos métodos têm custos significativos em termos de trabalho extra (e.g. gerar uma filogenia, realizar análises computacionais que tomam semanas) ou limitam o escopo de questões que podem ser respondidas porque esses problemas só podem ser endereçados em algumas escalas. A questão fundamental é que machismo estatístico é não reconhecer que é uma questão de julgamento e portanto há múltiplas respostas válidas.

2) Má-intenção ou motivo – machismo estatístico frequentemente é provocado por algum motivo que não é fazer um bom trabalho na análise dos dados. Motivos para machismo estatístico incluem:

  1. Um autor tentando impressionar pessoas e as distrair da ecologia. Se um método estatístico aparece no título do artigo e não é um artigo de métodos, isso é um mal sinal.
  2. Um revisor tentando manter os portões fechados – usando métodos estatísticos como uma forma de dizer “não” a outras pessoas e se sentir bem em fazer parte do “grupo de dentro”.
  3. Ser incapaz de conversar sobre quando uma técnica deveria ou não deveria ser usada. Se você acha que uma técnica deveria SEMPRE ser usada, isso é machismo estatístico.

Uma questão relacionada que eu também trouxe no meu post original é se esses métodos vão mudar as conclusões ecológicas. Existem muitos casos em que técnicas mais complexas de fato mudam a conclusão de uma maneira importante e tornam a conclusão mais correta. Mas há também muitos casos em que isso não acontece. O número de artigos de macroecologia que eu tenho visto que usam uma regrssão com e sem regressão filogenética e obtêm exatamente as mesmas respostas deve estar nas centenas. Agora, de fato às vezes é difícil de saber o resultado antes de tentar, e se a tentativa não tem custo, vai em frente. Mas outras vezes a tentativa tem um custo em tempo e pode se saber antecipadamente que ela provavelmente não vai ter um efeito, e simplesmente não vale a pena tentar. Se você não está aberto/a para este último argumento (para qualquer método estatístico), você está cometendo machismo estatístico.

A última questão que irei levantar brevemente, que guardarei para um post completo de outro dia, é que quanto mais complexas as estatísticas, mas complexas são as premissas que devem ser verificadas e validadas. E eu me preocupo que estamos nos movendo de um mundo em que a maior parte das pessoas sabe como avaliar as premissas para um em que as pessoas não têm nem ideia de que elas deveriam estar avaliando premissas mais novas e complicadas, muito menos sabem como fazê-lo.

O ponto fundamental é que, se você está aberto/a para uma conversa sobre as vantagens e desvantagens de múltipltas técnicas, você provavelmente não está cometendo machismo estatístico. Se você, como autor, valoriza mais a técnica que usa do que a biologia que ela lhe mostra, ou, como revisor, você está absolutamente convencido/a de que não há qualquer outra forma aceitável de fazer algo apesar de mitos argumentos racionais dados pelos autores, você está cometendo machismo estatístico. Se você está tão apegado/a a um método que você acha que não há qualquer razão válida para não usá-lo, você está cometendo machismo estatístico. Na minha experiência, a maior parte de especialistas em estatística não são as pessoas cometendo machismo estatístico. Tais especialistas têm aguda percepção de que nenhuma técnica é perfeita e toda técnica tem limitações e trade-offs. São as pessoas que sofreram para aprender uma técnica e frequentemente não conhecem as premissas ou limitações da técnica que são mais prováveis de cometer machismo estatístico. Ou, em outras palavras, se você tem 100% de certeza de que você está certo/a na estatística, você provavelmente está errado/a. E você provavelmente está praticando machismo estatístico.

Então, vamos destwitterizar “machismo estatístico”. Vamos manter esse termo como uma descrição de uma atitude não-construtiva, inflexiva, de superioridade e que mantem portões fechados. E não como uma crítica da sofisticação estatística em si.

O que você acha? Terá machismo estatístico mudado de significado desde o post original? Terá se tornado twitterizado. Ainda tem utilidade? Pode ser produtivamente usado como uma descrição de uma atitude, e não de uma técnica estatística? Ou acha que estou cheio de si e tentando ter os dois significados?

Apresentando resultados estatísticos: Apontamentos em escrita científica

Esta é uma tradução de um post escrito por Stephen Heard, no blog Scientist Sees Squirrel. É um tema bem importante; e eu até poderia escrever algo eu mesmo a respeito, mas pra que, se alguém mais sábio escreveu antes? E eu poderia apenas indicar o blog original, mas considerando que domínio da língua inglesa nem todo mundo tem, me pareceu interessante traduzir! Mas se você entende inglês, sugiro que leia o original, aqui.

Abaixo a tradução:

Este semestre, estou co-ministrando uma disciplina de pós-graduação/graduação avançada sobre bioestatística e desenho experimental. Essa é a minha aula sobre como apresentar resultados estatísticos ao descrever um estudo. É um tópico sobre o qual eu escrevi antes, e o que eu ensino em aula é baseado também em posts mais antigos no Scientist Sees Squirrel. No entanto, achei que seria legal colocar isso tudo num único post (mais longuinho), com os meus slides para ilustrá-lo. caso você queira usar estes slides, traduzidos para o português– licença CC BY-NC 4.0.

Aqui vai.

Como você deveria apresentar resultados estatísticos, em um artigo científico?img1.png

Bem, para começar, na verdade existem duas coisas diferentes a que podemos nos referir por “apresentar resultados estatísticos” – apresentar dados, ou apresentar estatísticas descritivas, estatísticas de teste, P valores, etc. Neste post vou me limitar basicamente à segunda possibilidade. Em relação à primeira possibilidade, veja o capítulo 12 do meu livro, The Scientist’s Guide to Writing; ou, melhor ainda (é claro!), o The Visual Display of Quantitative Information de Edward Tufte.

img2.png

Então imagine que você fez um experimento – no slide acima, um experimento simples comparando a densidade de lagartas (uma espécie que causa danos ao plantio) em parcelas de couve que foram tratadas com um novo inseticida biológico ou mantidas sem inseticida, como controle*. Nós queremos saber se o inseticida foi eficiente, então nós comparamos as densidades de lagartas entre os tratamentos usando um teste-t de Welch. Podemos gerar uma grande pilha de números – alguns deles, mas não todos, estào mostrados no slide, na caixa embaixo. O que fazer com estes números? Vou quebrar a questão em seis questões maiores. A chave pare responder cada uma delas é a mesma que para responder todas as questões sobre escrita: do que quem lê precisa para entender e aceitar a história que o seu artigo está contando?

img3.png

1. Quais números apresentar?

Existem muitos números que você poderia apresentar para comunicar os resultados do seu teste. Felizmente, para cada teste estatístico, normalmente existe uma prática consensual.

img4.png

Assumindo que estamos lidando com uma abordagem de teste de hipóteses**, o consenso normalmente vai incluir uma estatística de teste (no nosso caso, t); os graus de liberdade (no nosso caso, 9); um valor de P (no nosso caso, 0.022); e alguma medida do tamanho de efeito (no nosso caso, 62 VS 84 lagartas). Então poderíamos escrever “havia 23% menos lagartas no couve com inseticida (t(9) = 2.77, P = 0.022)”.

E é isso para o nosso teste-t; se tivéssemos feito uma ANOVA ou regressão ou qualquer outro teste, haveria equivalentes (veja o slide acima). A propósito, repare que a omissão do tamanho de efeito é um erro comum mas infeliz.

2. Onde apresentar estes números?

Quando você precisa decidir onde no seu artigo apresentar os números estatísticos, você terá quatro escolhas principais: no texto, em uma figura, em uma tabela, ou em um suplemento online.

img5.png

Colocar no texto funciona bem com as estatísticas mas simples (como no slide acima – artigo original aqui). Mas apenas com as estatísticas mais simples, porque à medida que as frases vão ficando mais e mais liberalmente preenchidas com estatísticas de teste e p-valores, elas ficam cada vez mais difíceis de ler – e “mais difícil” se transforma em “impossível” bem antes de chegarmos ao fim da nossa sofisticação estatística.

img6.png

Para estatísticas moderadamente complicadas, você pode considerar colocar os números relevantes diretamente em uma figura – como eu iz no slide acima (artigo original aqui). É claro que figuras também podem ficar cheias demais, então cuidado.

img7.png

Para estatísticas mais complexas, tabelas costumam ser mais eficientes. O slide acima relata múltiplas ANCOVAs em um formato relativamente compacto (artigo original aqui). Mas preste atenção nas ressalvas usuais sobre tabelas: editoras as adeiam (são caras para formatar) e leitores também as odeias (se elas não forem bem desenhadas, elas são difíceis de ler). Elas são um mal necessário, mas como todos os males necessários, elas devem ser usadas com moderação.

Finalmente, e em relação ao suprimento online? Estes se tornaram tão rotineiros e tão fáceis de incluir em um artigo que é tentados botar todos os números que você gerou em algum momento em um deles. Eu acho que a chave para entender o suplemento online é o fato de que quase ninguém os lê. (Sim, eu sei que algumas pessoas lêem alguns suplementos online; daí a palavra “quase”. Mas eu apostaria dinheiro de que o suplemento online médio é lido por menos de 0.1% das pessoas que lêem o artigo.) Então, use suplementos online para estatísticas que a maior parte dos leitores não precisa, mas de que alguns possam precisar:

img8.png

Este é um lugar ideal para estatísticas “secundárias”: testes de premissas, análises alternativas para confirmar a análise principal, esse tipo de coisa.

3. Primeiro estatística ou primeiro padrão?

Um erro comum é achar que seus leitores se importam mais com estatística do que com biologia. Este erro leva a frases horríveis (e eu já escrevi elas!) como “O teste-t de Welch produziu resultados significativos (t = 2.77, GL = 9, P = 0.022); veja figura 1”. Essa frase não diz ao leitor nada de interesse além de que existe alguma espécie de padrão, e que por algum motivo você acha que é trabalho do leitor entender que padrão é esse. Não é! Então considere uma das alternativas mais fortes neste slide:

img9.png

Pessoas frequentemente dizem que “os dados falam por conta própria”. Talvez em algum sentido eles realmente falem; mas este sentido não é algo útil quando escrevemos um artigo científico. Respeite quem lê seu artigo ao guiá-los pela história que você quer contar. Não se preocupe: alguém que queira permanecer crítico à sua interpretação fará isso sem problemas.

4.  “P < 0.05” ou “P = 0.022”?

Digamos que a sua análise produz um resultado com P = 0.02. Você relata ele desse jeito, ou você relata “P < 0.05”? A decisão para o segundo é baseada em uma filosofia linha-na-areia, ou “absolutista”, de inferência estatística. Por essa filosofia, devemos definir um critério de significância α antes de começar a análise, e então apenas nos importar se o P-valor obtido for maior ou menor do que α. Esa filosofia absolutista não é idiota, mas também não é a única. Muitos dos nossos leitores vão acreditar que P = 0.022 e P = 0.00000022 nos dizem coisas diferentes (usando uma filosofia “continualista” ou de “força-de-evidência”). (Mais sobre isso em “6. E quanto ao P = 0.051?”)

img10.png

Há três razões para relatar o P-valor exato mesmo quando a nossa própria filosofia diz que ele é informativo:

  • P-valores podem ser usados em meta-análise (este post explica como, usando o método de Fisher para combinar P-valores).
  • Até mesmo um leitor linha-na-areia pode preferir uma linha na areia diferente da sua; ao fornecer o valor exato de P, acomodamos qualquer escolha possível de α.
  • Um leitor linha-na-areia sempre pode ignorar o valor exato de P, mas um leitor força-de-evidência não consegue magicamente reconstituir este valor se você o jogou fora.

5. “P = 0.037” ou “P = 0.022823511”?

Beleza, você deveria relatar o valor exato de P – mas quão exato? P = 0.022823511? Não – e isso é um caso especial do princípio mais geral de dígitos significativos.

img11.png

Você não iria relatar a massa de uma semente com 8 dígitos, então por que relatar o P-valor para a comparação de massa de sementes com 8 dígitos? Programas estatísticos frequentemente relatam todos esses dígitos, criando a tentação e copiar-e-colar, mas não faça isso. Eu explorei essa questão em detalhes em outro texto, discutindo as duas questões relevantes de “digitados significativos para os dados” e “dígitos significativos para quem lê”; mas em geral, 2 ou 3 dígitos (não casas decimais, dígitos) devem ser o suficiente para estatísticas de teste e P-valores.

6. E em relação a P = 0.051?

E finalmente, a questão que parece provocar reações mais fortes (e mais mal-informadas) do que praticamente qualquer outra coisa na estatística. Como relatar um teste estatístico que resultou em um P = 0.051?

img12.png

O mundo parece estar dividido entre dois tipos de pessoas: aquelas que estão comfortáveis descrevendo esse resultado como “quase significativo” (ou algo similar), e aquelas que reagem a tais frases com horror e uma certeza presunçosa da sua própria superioridade e virtude estatística. Mas a única forma de de ter esta certeza presunçosa é não estar ciente de grande parte da história e filosofia estatística. Eu escrevi em mais detalhes sobre isso em outro texto, então apenas um breve resumo aqui.

Aqui é onde as duas filosofias alternativas de P-valores entram em cena. Para um absolutista, P = 0.051 significa o mesmo que P = 0.851, e ambos devem ser declarados não-significativos. Mas para um continualista, P = 0.051 sugere evidência mais forte contra a hipótese nula do que P = 0.851; talvez até mesmo evidência suficiente para considerar ela algo interessante.

img13.png

A visão absolutista satisfaz bem o controle estatístico de processos (quando você está testando amostras de lotes de batata-frita em uma linha de produção, você tem que empacotar ou descartar cada lote; medidas quantitativas de força-de-evidência não têm utilidade. Ela também se alinha bem com Popper, falsiabilidade, e inferência forte, ao menos para quem não pensa com muito cuidado sobre estes assuntos.

img14.png

Mas não existe nenhuma razão pela qual a visão absolutista é uma forma melhor de pensar sobre inferência estatística em um único experimento – e pode-ser argumentar que é uma visão pouco adequada para esta função. Afinal, P = 0.049 e P = 0.051 não são resultados de fato diferentes de um experimento, seja do ponto de vista lógico (ambos mostral que os dados estão em discordância moderada com a hipótese nula) ou do ponto de vista estatístico (P-valores têm incerteza, e dificilmente serão suficientemente precisos para separarmos valores tão próximos um do outro). Este argumento foi apresentado em mais detalhes aqui; ele também está de acordo com o “Statement on the P Value” da Associação Estatística dos Estados Unidos.

Então: P = 0.051? Vai em frente e o descreva como “marginalmente significativo”, ou outras palavras que digam isso, e saiba que a sua prática tem fundamentos filosóficos impecáveis. Isso não vai impedir revisores de terem objeções, obviamente. (Sinta-se livre para citar este post na sua carta-resposta).

Ainda comigo? Acabamos! Bem, quase. Primeiro, um meta-pensamento rápido. Eu fiz três cursos de estatística na minha carreira, e revisei a ementa e currículo de mais alguns. Nenhum tinha um módulo explícito abordando como escrever sobre seus resultados estatísticos. Isso não é peculiar? O que mais instrutores de estatística pensam que seus estudantes farão com as análises que fazem?

© Stephen Heard 2 de outubro de 2018; traduzido por Pavel Dodonov, 11 de outubro de 2018.

O texto original é baseado em material do The Scientist’s Guide to Writing, o livro escrito por Stephen Heard sobre escrita científica.

*Opinião impopular: na verdade, a melhor coisa que possivelemente poderia acontecer a uma parcela de couve é ela ser devastada por um ataque de largartas. Por que é que seres humanos comem isso? É como pedaços de grama cobertos de Bitrex.

** Outras abordagens, tais como seleção de modelos ou técnicas Bayesianas ou estatísticas estritamente descritivas, terão outros consensos.

Porque a conservação precisa da educação ambiental

Este é um post convidado, escrito por Mayla Valenti, amiga de longa data da UFSCar, minha veterana, e a pessoa com quem mais aprendi sobre Educação Ambiental 🙂 Mayla, muito obrigado por escrever para o blog! Aproveitando, visitem a página da Fubá, que Mayla toca para a frente junto com outras pessoas, aqui 🙂

Olá! Aqui é a Mayla Valenti, sou bióloga e educadora ambiental e conheço o Pavel desde o primeiro dia em que ele entrou na faculdade. 🙂 Quando recebi o convite para escrever no blog fiquei pensando sobre qual seria o melhor tema.. E como sei que ele é lido por muitas pessoas da área da ecologia e conservação, achei que apresentar a importância da educação ambiental para a conservação seria uma boa contribuição. Espero que gostem e que possamos trocar ideias nos comentários! 🙂

A conservação da biodiversidade é um campo de pesquisa e ação interdisciplinar muito relacionado às áreas da biologia e da ecologia, mas que também envolve a área das humanas, como no planejamento estratégico e na educação ambiental.

Continuar lendo

Sobre ser cientista e mãe

Este é um post convidado, escrito por Eliana Cazetta, professora na UESC. Eliana foi minha supervisora de pós-doutorado e uma pessoa muito importante para a minha formação de cientista. Aqui ela escreve um pouco sobre como é ser cientista e mãe; ano passado teve um outro post bem legal sobre este assunto, recomendo que leiam também!

Recebi esse convite super especial do Pavel para falar sobre ser cientista e mãe. Inicialmente pensei em escrever algo para motivar as pesquisadoras e sobre como a maternidade me fez uma cientista melhor. Como aprendi a otimizar o tempo de trabalho o máximo possível e, sem tempo pra procrastinação, acabei de certa forma me tornando mais produtiva.

Porém, gostaria de aproveitar essa oportunidade para falar sobre alguns assuntos que apenas recentemente começaram ganhar destaque. Também queria enfatizar como mudei de opinião ao longo do tempo sobre eles.

Continuar lendo

Programação em R: loops for – parte 2

Continuando o tema da semana anterior (se você não leu, leia antes de ler este post de hoje), hoje mostrarei como usar loops para analisar diversas variáveis automaticamente.

Por que precisaríamos fazer isso? Bom, pode ser que o objetivo do seu estudo é descobrir quais variáveis ambientais afetam uma determinada plantinha espécie. Por exemplo, pode querer avaliar como esta plantinha ou bichinho espécie é afetada por temperatura média do local em que vive, estrutura da vegetação, quantidade de floresta remanescente, etc. Neste caso você vai fazer uma única análise.

Mas pode acontecer que você quer saber como diferentes plantinhas espécies ou outras coisas variáveis são afetadas pela mesma variável explanatória. Por exemplo, no meu mestrado, eu queria saber como altura da vegetação, temperatura do ar, quantidade de gramíneas invasoras e outras variáveis são afetadas pela distância até a borda do remanescente florestal (ou savânico – trabalhei no cerrado). A variável explanatória é sempre a mesma, mas as variáveis-resposta mudam. Poderia eu fazer uma PCA ou outra análise multivariada? Poderia. Mas o meu interesse era em cada variável individualmente, não no seu conjunto, de modo que eu precisava fazer várias análises.

Continuar lendo

Programação em R: loops for – parte 1

Digamos que você precisa repetir um procedimento no computador umas cinco vezes – talvez rodar a mesma análise sobre cinco conjuntos de dados. O que você faz?

Provavelmente repete o procedimento cinco vezes e faz fazer outra coisa da vida, né? 🙂

Mas digamos que você precisa repetir um procedimento vinte ou trinta vezes. E agora?

Talvez a tendência seja pensar “Que tédio! Mas vamos lá né.”, repetir o procedimento e depois, talvez já com um certo grau de irritação, ir fazer outra coisa da vida.

E se forem cem vezes? Dá pra passar um dia rodando análises de forma repetida, mas será este o melhor investimento do nosso tempo?

Neste post vou mostrar com usar loops (ou seja, procedimentos repetitivos) em R para automatizar uma tarefa. Especificamente, vou mostrar como usar a estrutura for para repetir um procedimento um determinado número de vezes. Darei dois exemplos: um gráfico de bolinhas que não serve pra nada a não ser demonstrar loops; e uma análise por permutações. Semana que vem darei mais dois exemplos: uma regressão com diversas variáveis-resposta no mesmo objeto; e uma análise de variáveis que estão em arquivos diferentes no computador.

Continuar lendo