fevereiro 16, 2013 por Pavel Dodonov

Como pedir ajuda em estatística – alguns conselhos

Um dos melhores aspectos de entender um pouco mais de estatística ecológica é que pessoas vêm solicitar ajuda ou conselhos com certa frequência. Além de ser muito legal porque ajudar pessoas é muito legal por si só, é um belo aprendizado. Afinal, em que outras circunstâncias um ecólogo vegetal como eu iria se preocupar em como analisar dados de toxicologia ou de variação genética? Toda solicitação de ajuda é uma oportunidade para aprender mais sobre alguma análise ou alguma abordagem, e eu pessoalmente adoro isso.

Dito isso, existem algumas coisas que poderiam tornar esta prática bem mais produtiva para ambos os lados. Especificamente, algumas informações que são, a meu ver, essenciais e deveriam ser passadas, se possível, no primeiro contato. Então, abaixo coloquei alguns conselhos sobre como pedir ajuda em estatística (não darei aqui conselhos sobre como analisar os dados, outras pessoas fizeram um trabalho muito melhor sobre isso).

Basicamente, eu diria que as seguintes informações precisam ser passadas, de forma resumida, em um pedido de ajuda (ou consultoria, né) estatística (e também para planejar um estudo):

Pergunta que se deseja responder

A análise estatística pode te dar a resposta que você procura. Mas, uma boa resposta precisa de uma boa pergunta (por exemplo, “a predação de ninhos é afetada por distância da borda?”). Usar uma análise para simplesmente extrair algo dos dados (uma situação como “Eu tenho estes dados sobre 15000 borboletas de uma área de cerrado e não sei o que fazer com eles”) é bem mais difícil, quando não impossível. E achar uma boa pergunta depende muito mais de conhecimento biológico do que de conhecimento estatístico. É claro que o correto é ter a pergunta bem clara na hora de planejar o estudo. Mas, nem sempre isso acontece. Às vezes fazemos um estudo sabendo o tema geral, mas, por algum motivo qualquer, não temos a pergunta bem definida, e isso é perfeitamente normal de acontecer, ao menos na graduação ou no mestrado. Ou às vezes o delineamento amostral por algum motivo não permite responder a pergunta desejada, e só percebemos isso quando é tarde demais. Nestes casos, o que recomendo – e essa é uma recomendação pessoal de um mero doutorando em Ecologia – não é pensar “Poxa, eu tenho estes dados, que teste será que posso usar neles?”, e sim “OK, eu tenho estes dados, será que existe alguma pergunta ecológica interessante que eu posso tentar responder com eles?”. Afinal, você coletou os dados, você estudou o táxon ou o ambiente em que eles foram coletados, então ninguém melhor que você para saber o que estes dados podem responder! Tendo a pergunta, aí sim é o momento de pensar em que teste estatístico usar.

Unidade amostral

Ouquei, temos a pergunta, vamos em frente! A unidade amostral é uma informação muito importante e que às vezes não é explicada, talvez por ser vista como óbvia pelo autor do estudo. Por exemplo, em um estudo sobre o efeito de um extrato vegetal sobre a germinação de sementes, a unidade amostral é cada semente, ou é cada conjunto de sementes em uma placa de Petri, ou é um conjunto de placas de Petri?… Novamente, isso depende da pergunta, e frequentemente é possível pensar em unidades amostrais de mais de uma forma. Mas se formos pensar em cada semente como unidade amostral, então o teste precisaria levar em conta a não-independência entre as sementes colocadas na mesma placa. O que seria esta não-independência? Bem, pode ser que uma placa esteja em um lugar ligeiramente mais iluminado (talvez por algum defeito na câmara de germinação), e aí as sementes nela germinarão mais rápido por causa dessa iluminação, não por causa do fator de interesse do estudo. E é algo difícil de controlar. Pode ser que isso não altere o resultado final, mas a possível não-independência é uma informação importante que deve ser levada em conta ao planejar a análise. Isso se aplica a outros estudos, como plantas localizadas em parcelas no cerrado, e assim por diante.

Natureza da variável-resposta

Qual é a medida, ou variável operacional, que você está usando? É uma variável contínua (e.g. altura), uma variável de contagem (e.g. número de indivíduos),uma variável categórica (e.g. espécie), uma variável binária (e.g. se um ninho foi predado ou não) ou uma variável de proporção (e.g. porcentagem de germinação)? Isso é uma informação essencial para determinar quais testes podem (e especialmente quais testes não podem) ser usados. Por exemplo, a famosíssima Análise de Variância deve ser usada basicamente com variáveis contínuas. Já para dados de contagem, podemos pensar em um qui-quadrado ou em um GLM. E outra questão importante é se é uma única variável-resposta, ou se são várias, o que implicaria em uma análise multivariada.

Natureza das variáveis explanatórias e replicação

OK, a variável-resposta foi definida, mas e as variáveis explanatórias? Elas são basicamente aquelas usadas para explicar a variação na variável-resposta. Podem ser tipos de tratamento; ou podem ser diferentes concentrações de um agente inibidor; ou podem ser variáveis ambientais medidas no local, como pH e umidade do solo; ou pode ser até mesmo a localização espacial das amostras. Normalmente as análises costumam ser menos restritivas para a natureza das variáveis explanatórias do que para a variável-resposta, mas saber, por exemplo, se elas são contínuas ou categóricas é bastante importante. E aqui entramos em outra questão, a replicação.

Replicação

É uma questão bastante importante para decidir o tipo de teste. Se as variáveis explanatórias forem contínuas, quantas réplicas, ou repetições, ou unidades amostrais temos, no total? Caso as variáveis explanatórias estejam distribuídas em grupos ou fatores (e.g. diferentes concentrações, pré-determinadas, de um agente inibidor), quantas réplicas temos para cada tratamento? Além disso, o delineamento amostral ou experimental é balanceado, ou seja, com o mesmo número de réplicas em todos os tratamentos? Dependendo do tamanho amostral, alguns testes não podem ser usados – pode ser que o teste não funcione com poucas amostras, ou tenha poder muito baixo; ou pode ser que o seu cálculo seja difícil demais para um conjunto muito grande de amostras.

Mais alguns detalhes

Finalmente, alguns detalhes específicos do delineamento amostral podem ser necessários. A forma de coleta – se a coleta de insetos foi feita com pratinho amarelo ou pitfall, por exemplo – muitas vezes é irrelevante. Já a forma como os pitfalls e pratinhos amarelos estão distribuídos faz diferença. Dependendo da distância entre eles ou da forma como eles são agrupados, pode ser necessário fazer um ajuste para autocorrelação espacial. Ou, se eles forem colocados em grupos, pode ser necessário fazer uma análise que leve em conta a pseudoreplicação entre eles, por exemplo um modelo misto. Se a mesma unidade foi medida em vários momentos do tempo, isso também precisa ser levado em conta, pois as diferentes medidas da mesma unidade amostral não são independentes. E assim por diante. De qualquer modo, um bom planejamento, que leve estes fatores em conta, é essencial, e nenhuma estatística será capaz de resolver os problemas de um estudo mal-planejado. ;)

Um exemplo

Este é um exemplo de como eu descreveria os dados que coletei no meu mestrado (neste caso não falei especificamente da unidade amostral porque me parece que ficou claro mesmo assim, mas é claro que posso estar enganado):

Eu coletei dados referentes a efeito de borda, ou seja, meu objetivo é saber como as variáveis ambientais estão relacionadas com a distância da borda do fragmento florestal. As variáveis-resposta são todas contínuas, e pretendo analisá-las separadamente; a variável explanatória é a distância da borda, medida em metros, podendo assumir 15 valores distintos (0, 2, 5..30, 40, 50…. 120, 150, 180 m). A amostragem foi feita em transectos, ou seja, parcelas (unidades amostrais) dispostas ao longo de linhas retas, indo de 0 a 180 m, e eu tive um total de cinco transectos, separados por uma distância aleatória entre 20 e 40 m.

Um conselho final

Levando em conta o dito acima, leve em conta para onde você vai mandar o pedido de ajuda. Se for um pedido de ajuda para alguém específico, por exemplo um professor ou colega mais experiente, recomendo escrever um email mais completo, com todas as informações acima. Por outro lado, se for um pedido de ajuda enviado, por exemplo, a uma lista de emails referente a algum software (por exemplo, a R-BR, dedicada ao software R, ou a lista de emails do software Past), recomendo um explicação bem curta, explicando em linhas gerais o problema estatístico, da forma o mais breve possível. Normalmente pedidos de ajuda em lista se referem a teste específicos, e portanto nem precisam de muitos detalhes. Além disso, um email curto tem maior probabilidade de ser lido por mais pessoas, e caso alguém veja o email e precise de mais informações, provavelmente ele ou ela irá escrever solicitando-as.

E só enfatizando…

Nenhum teste pode salvar um delineamento amostral ou experimental mal-planejado; por outro lado, um delineamento bom frequentemente permite que vários testes sejam aplicados. Portanto, planejar bem o estudo antes de começar é essencial. ;)

34 pensamentos sobre “Como pedir ajuda em estatística – alguns conselhos”

Marco | abril 23, 2013 às 11:12

Excelente, Pavel! Muitas vezes as pessoas não conseguem receber ajuda, simplesmente porque não conseguem se comunicar de maneira eficiente. Quando se trata de comunicação sobre temas complexos ou fora da zona de conforto da pessoa, um planejamento é realmente essencial.

CurtirCurtir

Responder
- pdodonov | abril 23, 2013 às 11:16
  
  Obrigado, Marco! :)
  Pois é, um planejamento é sempre essencial; e também saber quais informações precisam ser passadas. Uma dificuldade que enfrento frequentemente quando alguém me pedem ajuda é não saber a unidade amostral que foi usada, pois, dependendo da unidade amostral, podemos usar uma análise de variância ou um qui-quadrado…. rs
  
  CurtirCurtir
  
  Responder
  - Marco | abril 23, 2013 às 11:19
    
    Acho que poucos pensam sobre unidades amostrais. Deveria haver mais cursos de delineamento experimental na graduação e na pós.
    
    CurtirCurtir
Pingback: Qual teste estatístico devo usar? | Sobrevivendo na Ciência
matheus barbosa (@barbosatheu) | dezembro 11, 2013 às 12:35

Sou graduando em Engenharia de Minas e estou fazendo a matéria de Geoestatística, mas nao tenho muita facilidade no assunto.
Gostaria de saber se você pode me dar uma ajuda nesse trabalho que preciso fazer:

Analise de CLUSTER
Temos a seguir, 10 amostras de analise mineral.
Amostra Ni Cr Mo
1 1.1 9.2 5.5
2 1.2 2.1 4.1
3 5.1 5.6 4.0
4 2.2 9.6 4.9
5 1.3 2.1 4.0
6 5.0 5.7 4.1
7 5.0 5.8 4.1
8 1.1 9.9 5.1
9 1.3 2.2 4.0
10 5.2 5.5 3.9
A) Obter 2 clusters, usando arvore geradora minima.
B) Obter 3 clusters, usando K-MEANS.

obs: Preciso mostrar todos os cálculos do TRABALHO sobre K-MEANS

Grato desde já.

CurtirCurtir

Responder
- Pavel Dodonov | dezembro 12, 2013 às 17:56
  
  Oie…
  HUmm… Não entendo bem a árvore geradora mínima. Imagino que seja o minimum spanning tree, mas não sei como seria usado pra cluter… Quanto ao k-means, olhe no manual do Past – http://nhm2.uio.no/norlex/past/doc1.html
  
  CurtirCurtir
  
  Responder
Leandro Ferreira de Jesus | dezembro 30, 2013 às 11:27

Olá… bom dia.

Encontrei seu contato pela internet enquanto busco incansavelmente um material de estatistica que possa me auxiliar.

Bom, moro em Salvador/BA e a questão é a seguinte.

Possuo caixas em um alinha de produção circulam com variados pesos por esteiras, a qualidade disso se por por tudo que for pedido esteja dentro da caixa para isso em alguns pontos da linha de produção possui balanças que desvio caixas que estejam foram da faixa de tolerancia designada para a peso real e esperado.

Por exemplo:

De 100g a 300g – tolerancia de 9% para + e para –

De 301g a 500g – tolerancia de 15% para + e para –

Consegui ser claro?

A grande questão é que as porcentagens não foram calculadas, foi utilizado erro e acerto. Por isso estou realizando pesagem de um grupo de produtos e calculando o desvio padrão mas me peguei sem saber como estipular faixas de tolerancia acertivas mas que tenham fundamente matemático. Acredito que por estatisitica eu consiga achar mas não tem referencia de livro e nem se estou caminho certo.

Consegue me ajudar?
Espero manter contato contigo.
Grato desde já.

CurtirCurtir

Responder
- Pavel Dodonov | dezembro 30, 2013 às 11:32
  
  Humm… Conseguiu ser mais ou menos claro, mais pra menos na verdade, rs. Mas… Olha, não importa que faixa você use, vai ser um tanto arbitrária. E a estatística normalmente não te fala “sim” ou “não”, ela te fala a probabilidade de ser “sim” ou “não”. Recomendo procurar coisas sobre controle de qualidade, talvez em livros pra engenharia da produção ou algo assim… :)
  
  CurtirCurtir
  
  Responder
Pingback: Qual teste estatístico devo usar? | Sobrevivendo na Ciência
Allan Maurício | setembro 15, 2014 às 23:44

Boa noite Pavel,
Faço mestrado em botânica e tenho muita dificuldade com estatística!
vou tentar dizer o que preciso.
a princípio não tenho meus dados balanceados, isso deve diminuir os testes que poderei usar certo?
Quero saber se existe relação da salinidade com a assimetria foliar de tres especies de manguezal.
Com isso ao longo de um transecto de 200 metros (gradiente de salinidade) dividi minha área em 3 subáreas, sendo a subárea 1 proxima da margem e mais salina e a subárea 3 mais distante da água e menos salina.
A Subárea 1 possui 3 espécies de plantas, a subárea 2 as mesmas 3 espécies e a subárea 3 somente duas espécies (o que creio que desbalanceia minha amostra)
em cada subárea coletei 10 folhas (pseudoréplicas) de 5 indivíduos por espécie (réplicas) e avaliei a assimetria dessas folhas. fiz a média por indivíduo e depois a média por subárea.
tentando resumir: meu esforço amostral são as subáreas, minha unidade amostral são as plantas.

acho que não fui bem explicativo, mas mesmo assim agradeço!

CurtirCurtir

Responder
- Pavel Dodonov | setembro 25, 2014 às 09:20
  
  Oi, Allan,
  Desculpe a demora pra responder…
  Em primeiro lugar, você foi sim bem explicativo, ao menos eu consegui entender seu objetivo e seu desenho amostral!
  Então… Seguinte… Em primeiro lugar, acho que você só deveria usar as duas espécies que tem nas três áreas. Senão você não consegue fazer a comparação de fato. Você pode fazer uma análise separada pra terceira espécie usando apenas as duas áreas onde ela se encontra.
  Em segundo lugar – Por que dividir em três áreas e não usar a distância de cada parcela mesmo? Se você souber a posição de cada indivíduo ao longo do transecto, você pode relacionar com a distância, e não com a área onde ele está. Pode ser que os resultados sejam melhores.
  E então… O complicado deste desenho amostral, de várias folhas por indivíduo, é que você não pode usar um modelo misto, que é o que a gente usa quando temos pseudoréplicas, porque o valor das variáveis explanatórias (espécie e região ou distância) é o mesmo pra todas as folhas do indivíduo. E aí o efeito do indivíduo se confunde com a variação entre indivíduos…
  Então, você tem três opções. 1) Você assume que as folhas são de fato independentes e sua unidade amostral passa a ser a folha; ou 2) você usa o valor médio de assimetria por indivíduo; ou 3) você usa, digamos, 7folhas por indivíduo pra fazer a análise (via opção 1 ou opção 2) e usa as outras 3 folhas como conjunto de validação, pra ver se o efeito se mantem. E bem, uma outra opção seria fazer um bootstrap, reamostrando folhas aleatoriamente, pra ter um intervalo de confiança pros resultados da análise. Ou seja, muitas opções. rs
  Aí se vc usar áreas mesmo, você faz uma ANOVA, unifatorial se for fazer uma análise por espécie ou bifatorial se for juntar região e espécie na mesma análise. A ANOVA vai falar se os valores médios são diferentes entre as áreas. Se for usar a distância, você pode usar uma regressão linear ou ANCOVA, ou um modelo aditivo (gam – generalized additive model) se não achar que a resposta será linear.
  Só lembre-se que assimetria foliar é uma variável sujeito a muito erro de medida e ele precisa ser levado em conta… :)
  
  CurtirCurtir
  
  Responder
Pingback: Estatística: um problema ou uma solução? | Instituto Biodiversidade Austral
Pingback: Estatística: um problema ou uma solução? | Just another Ecology and Statistics blog
Ana Laura Campos de Carvalho | junho 4, 2015 às 12:42

Boa Tarde! Primeiramente parabéns pelo post.
Gostaria de pedir uma ajuda. Quero calcular o índice de Moran (I), no statistica 8.0, como . proceder? Desde já obrigada.

CurtirCurtir

Responder
Ana Laura Campos de Carvalho | junho 5, 2015 às 00:36

Boa Noite, gostaria também de discutir sobre algumas análises que apliquei aos meus dados e estou com dúvidas.

Teste de Wilcoxon: usei esse teste para comparar a abundancia relativa de maritacas em pomares (n=15) em dois eventos “com fruta” e “sem fruta”. Porem não tenho uma única medida do pomar com fruta e outra única sem fruta e sim 12 medidas para cada pomar (o número de medidas com e sem frutas para cada pomar são diferentes/devido a época de safra dos mesmos).
Para realizar o teste trabalhei com as médias das medidas com frutas e sem frutas para cada pomar.
Ex:
Pomar Sem fruta Com fruta
1 2 52
2 0 21
…
Média: o pomar 1 foi visitado em duas ocasiões em que não tinha fruta, apresentando as contagens 0 e 4 (média= 2). O mesmo pomar foi visitado 10 vezes em que tinha fruta, sendo obtida as contagens: 200, 20,50,46,20,50,40,0,80,10 (média=52).

Gostaria de saber se está correto fazer isso?

========
Quero analisar também a possível preferência das maritacas por frutas (pêssego, goiaba, maça). Tenho os seguintes dados:
Ex:
Nº maritacas Fruta consumida
200 pêssego
20 pêssego
…
20 goiaba
46 goiaba
…
80 maça
10 maça
…

Pensei em aplicar o teste chi-quadrado, porem minhas amostras não são independentes (o mesmo pomar pode ter maça numa época e pêssego na outra). O tamanho das amostras também não é o mesmo: tenho 34 amostras em pomares de pêssego,13 em pomares de goiaba e 50 em pomares de maçã.
O teste McNemar poderia ser uma opção? Fiquei na dúvida, pois pelo que entendi do teste é para análises de dados pareados quando o resultado é binomial.

Teria outra possibilidade de análise?

Desde já obrigada.

CurtirCurtir

Responder
- pdodonov | junho 5, 2015 às 08:42
  
  Bom dia! :)
  Bom, antes de responder de verdade, só vou comentar duas coisas (não se ofenda!):
  – A melhor forma de descobrir como se faz um teste em um programa é perguntar ao manual do programa, ao Google, ou a uma lista de discussão focada neste programa… (E eu pessoalmente não sei, nunca usei este programa, mesmo porque só uso softwares livres pra análises)
  – E eu acho que comentários em blogs são melhor aproveitados quando tratam de assuntos gerais, ou de assuntos específicos de uma forma mais geral… não tanto sobre um conjunto de dados um uma análise específica.
  Tendo dito isso… rs:
  Eu acho que sua abordagem pra usar Wilcoxon está correta… Talvez não seja a ideal, mas está correta (porque os eventos não são independentes, então faz sentido usar média). Outra alternativa seria considerar cada evento (cada dia amostrado) em um modelo misto, incluindo o pomar como variável aleatória. Mas… Pode haver variação sazonal (ou uma outra forma de variação temporal) nas visitas das maritacas independentemente dos frutos, isso precisa ser considerado de alguma forma.
  E não entendi bem a sua segunda dúvida…
  Abs…
  – Pavel
  
  CurtirCurtir
  
  Responder
  - Ana Laura Campos de Carvalho | junho 5, 2015 às 14:52
    
    Boa tarde Pavel,
    Desculpa pela minha infeliz pergunta sobre o Índice de Moran.
    Obrigada por esclarecer sobre o Wilcoxon.
    A minha segunda dúvida, é o seguinte: quero analisar se existe preferência entre as frutas (pêssego, goiaba, maça) consumidas pelas maritacas. Tenho a relação nº de maritacas e tipo de fruta consumida. As amostras não são independentes, pois o mesmo pomar pode ter pêssego em uma época e maçã em outra.
    Obrigada!
    
    CurtirCurtir
  - pdodonov | junho 5, 2015 às 15:18
    
    Entendi… Bom, acho que você pode fazer um qui-quadrado, considerando o número de frutos disponíveis e consumidos de cada tipo, para ver se há diferenças entre as frutas. Ou talvez você possa fazer um GLM… Eu recomendaria estudar GLMs (generalized linear models) e modelos mistos, poderá te ser útil! :)
    
    CurtirCurtir
Ana Laura Campos de Carvalho | junho 5, 2015 às 23:08

Pavel, muito obrigada pelas sugestões.
Abraço.

CurtirCurtir

Responder
Carolina Gouvêa Gonçalves | novembro 25, 2015 às 21:29

Boa noite, tudo bem?

Estou com uma dúvida em relação a qual análise estatística utilizar em meu trabalho, sendo que quero analisar se a escolaridade das pacientes influencia no consumo alimentar delas.
Também se a renda familiar das pacientes influencia no consumo alimentar delas.

escolaridade (0 = igual ou inferior ao ensino fundamental / 1 = ensino médio completo ou superior)

renda familiar (0 = menor que 1 salário mínimo / 1 = 1 a 2 salários mínimos / 2 = 3 a 5 salários mínimos)

O consumo alimentar foi questionado apenas se é consumo ou não cada alimento e após isso, foi dividido em grupos alimentares (frutas, carnes, embutidos e etc…), ou seja, foi questionado apenas qualitativamente, não perguntamos quantidades. No banco de dados, está separado todos os dados, inclusive o consumo que foi dividido em D (diário), S (semanal) e EN (Eventualmente ou nunca), e ai conforme colocamos em grupos alimentares, fizemos a média e o desvio padrão.

Dai no caso a minha dúvida é, qual análise estatística utilizar??

E como colocar esses dados no programa estatístico?

Por exemplo: a escolaridade dividi em 0 e 1, nesse caso, eu coloco assim no programa? E o consumo, como coloco no programa? (Estou usando o Bioestat)

Agradeço desde já, e espero que possa me ajudar!!
Atenciosamente,

CurtirCurtir

Responder
- pdodonov | novembro 26, 2015 às 08:50
  
  Bom dia!
  Então, como vejo… Você tem basicamente dados multivariados (cada tipo de alimento sendo uma variável), com duas variáveis explanatórias (renda familiar e ensino). As variáveis explanatórias neste caso são melhor vistas como categóricas, porque são apenas dois níveis em uma e três níveis na outra. E o objetivo é ver se a alimentação varia com o grau de ensino e com a renda familiar, certo?
  Se fosse uma análise univariada (por exemplo, um único tipo de alimento), poderia ser análisado por qui-quadrado. No caso multivariado, eu acredito que você pode fazer uma análise de correspondência (correspondence analysis – CA) e examinar no gráfico se sujeitos com a mesma escolaridade e a mesma renda familiar se agrupam, e também dá pra ver quais alimentos são os principais responsáveis por este agrupamento. A análise fica um tanto subjetiva, mas acredito que seja válida.
  Complementarmente, pode ser feita uma PERMANOVA, que é uma análise de variância multivariada por permutação (e, portanto, não-paramétrica), usando alguma medida de distância que considere duplas ausências – por exemplo, distância de Hamming – ou, se for usar a frequêcia de consumo, talvez distância euclidiana ou de Manhattan.
  Esta análise talvez possa ser feita no Past, mas é melhor usar o R (função adonis, pacote vegan), e o Primer-e (que não é gratuito) também deve fazer.
  Eu sei que o acima soou difícil de entender, mas, resumindo, estude sobre análise de correspondência, índices de distância/similiradidade e PERMANOVA, e olhe no manual do programa como inserir os dados pra isso. ;-)
  
  CurtirCurtir
  
  Responder
  - Carolina Gouvêa Gonçalves | novembro 26, 2015 às 14:33
    
    Agradeço muito pela resposta! Já deu uma esclarecida nas ideias.. Vou pesquisar mais sobre a respeito destes que você comentou. Obrigada novamente! Abraços
    
    CurtirCurtir
Cláudia | fevereiro 12, 2016 às 17:07

Boa tarde!!

Existe alguma opção de teste ou alternativa quando o N é muito pequeno?
Trabalho com um número limitado de espécies e isso muitas vezes dificulta no processo da estatística…

CurtirCurtir

Responder
- pdodonov | fevereiro 12, 2016 às 17:46
  
  Oi Cláudia,
  Então… N pequeno é complicado. Se você tiver bons motivos pra pensar que os dados são instrinsicamente normais, testes paramétricos podem dar certo, mas terão poder baixo (ou seja, será difícil detectar resultados significativos). E talvez estatística Bayesiana possa ajudar, mas não me pergunte como ;-)
  
  CurtirCurtir
  
  Responder
Sandro | setembro 29, 2016 às 10:42

Bom dia,
Preciso muito de uma ajuda.
Tenho 2 conjuntos de dados de tamanhos diferentes (80 pontos aproximadamente cada). Um feito com o método A e outro com o método B. Foi utilizado o Mesmo solo em ambos métodos.

Cada conjunto de dados tem na sua ordenada (Densidade) e abscissa (% de umidade). Estes dados devem se aproximar de uma parábola de 2°. A Densidade é função do % umidade.

a) Como posso comparar os métodos A e B?
b) Como saber qual método apresente menor dispersão? Isto é, qual método tem os pontos mais próximos de uma parábola.

Veja o que pensei:

1) Ajustei pelo EXCEL uma curva de 2° ao conjunto A e depois ao B.
2) Calculei a distância de cada ponto até sua respectiva parábola (Seguem a distribuição normal nos casos A e B). Com isso transformei minhas 2 variáveis em uma (distância) que seria a discrepância, cuja a média ideal seria ZERO. Então para responder a letra (b), pensei calcular o RMS e compará-los.

3) Agora, como posso comparar os métodos A e B?

CurtirCurtir

Responder
- pdodonov | outubro 1, 2016 às 15:06
  
  Oi Sandro,
  No geral, acho que seu pensamento está basicamente certo, e se assemelha à teoria de verossimilhança (likelihood). Dá uma estudada nestes conceitos! Você também pode testar se existem diferenças entre os dois modelos comparando entre dois modelos: um modelo ajustando uma curva para todos os pontos juntos e outro modelo ajustando curvas diferentes para os dois métodos. Dá uma estudada sobre model selection. :-)
  
  CurtirCurtir
  
  Responder
  - Sandro | outubro 3, 2016 às 13:45
    
    Muito obrigado Pdodonov,
    Você acha que eu poderia aplicar o teste t para amostras “não pareadas” na situação que você sugeriu de criar uma curva única que se ajusta aos pontos do método A e B simultaneamente, minha variável de teste continuaria sendo a “distância”? OU talvez o teste “u” de Mann – whitney?
    Mais uma vez muito obrigado feedback.
    
    CurtirCurtir
  - pdodonov | outubro 3, 2016 às 13:55
    
    Prazer, Pavel :-)
    Então, acho que não, porque a distância média vai ser zero (metade dos pontos acima e metade abaixo) em ambas as curvas. Talvez usando o desvio absoluto daria certo, mas não sei quais seriam as propriedades estatísticas deste teste. Mas pode ser tentado…
    Embora provavelmente o likelihood ratio test seja melhor :-)
    
    CurtirCurtir
Sandro | outubro 3, 2016 às 19:15

Vou dar uma lida no teste que você sugeriu. Obrigado..
Porém voltando a Ideia anterior. Eu calculei as distâncias em Módulo. Só será zero a média se todas as discrepâncias (distâncias) forem zero. Então não corre o risco de uma distância +3 ao ser somada com uma -3 dar zero e retornar média zero. Então pensei em fazer:
H0: Média = 0 => Não existe diferença
H1: Médo dif 0 => Existe diferença
Mas isso aplicando alguns dos 2 teste que falei anteriormente.

Realmente te agradeço muito pela ajuda, não sou da área de estatística e sempre que preciso tenho muitas dúvidas.

CurtirCurtir

Responder
- Pavel Dodonov | outubro 4, 2016 às 07:01
  
  Oi Sandro, Acredito que seja possÃvel sim! NÃ£o seria algo muito convencional, mas, de fato, se um ajuste for melhor do que outro, a mÃ©dia dos desvios absolutos (i.e. em mÃ³dulo) serÃ¡ menor… EntÃ£o um teste t ou um teste t por permutaÃ§Ãµes deve dar certo! :-)
  
  On 10/3/16, Mais Um Blog de Ecologia e EstatÃstica
  
  CurtirCurtir
  
  Responder
Pingback: Qual teste estatístico devo usar? – Sobrevivendo na Ciência
Pingback: Qual teste estatístico devo usar? | Blog da BC
Diana Villota | maio 6, 2019 às 15:52

Boa tarde
Gostaria de saber qual teste estatistico não parametricoé equivalente ao teste split-plot, pois o delineamento de meu experimento é de parcelas divididas mas antes de realizar a análise, meus dados não apresentamnormalidade, játentei trasnformar-los de diferentes formas ainda apresentam não normalidade. PERMANOVA pode der utilizada comouma análise equivalente a split;plot. No split;plot queria determinar se exixtia efeito do tipo de habitat (tenho 4 tipos de habitat) e meu tratamento experimental sobre as taxas depredação de sementes. O tipo de habitat foi o fator de parcela completa com 3 niveis de fator dentro da parcela).

Obrigada!

CurtirCurtir

Responder
Pingback: Por que vale a pena usar o R? – Sobrevivendo na Ciência