Diálogo sobre a Estatística Multivariada

Um dia quente no deserto, e Jean*, homem do deserto, está sentado, pensativo e cabisbaixo, sobre uma rocha. Bia, a guerreira em busca da Pedra Filosofal, se aproxima e pergunta:

– O que te aflige, ó homem do deserto?

– Algo pesa na minha mente e aprisiona meu espírito. Uma pergunta para a qual não tenho resposta. O que é a Estatística Multivariada?

– Bom… O que você acha que ela é?

– Algo que faz… coisas… estatísticas… com… dados multivariados?

– Respostas circulares, a gente vê por aqui! Hihihi. Mas sim. E que tipo de coisas estatísticas você faria, homem do deserto?

– Ah, muitas coisas, ó brava guerreira! Eu faria gráficos e figuras. Eu mostraria o comportamento dos dados, suas médias e variâncias, mostraria quantos valores pequenos e grandes temos neles. Mostraria, nos gráficos, as relações entre variáveis diferentes, como a chuva afeta o crescimento das flores, como o Sol modifica o comportamento dos lagartos que correm sobre as rochas quentes… Tantas coisas eu faria! Eu testaria se as relações são reais ou se são frutos do acaso. Eu calcularia significância e AIC, eu compararia entre diferentes modelos para chegar à resposta. Mas, céus, a Multivariada me ilude.

– Vejo que você já trilhou os caminhos da estatística. Isso é bom. E multivariada… multi-variada… Múltiplas variáveis, talvez? Quando temos muitas variáveis com as quais queremos fazer gráficos, comparar modelos e encontrar relações?

Jean ergue a cabeça.

– Sim! Quando temos múltiplas variáveis! Mas… O que seriam elas?

– Bem. Observe aquele calango correndo sobre as rochas. O que estaria afetando a velocidade do movimento dele? Seria apenas o Sol?

– Não, claro que não! É o Sol, mas também a sombra; a superfície da rocha, pois rochas escuras têm uma temperatura mais alta; a quantidade de alimento, e o tempo que se passou desde que ele comeu pela última vez; a presença de predadores – como aquela coruja escondida no buraco; muitas, muitas coisas! – os olhos do homem do deserto se iluminam. – Seria isso, então, a Estatística Multivariada? Definir quais, entre tantas variáveis possíveis, de fato afetam o comportamento do calango, ou alguma outra variável qualquer?

Bia balança a cabeça. – Para entender o que algo é, é importante primeiro entender o que algo não é. É uma confusão comum essa, já a encontrei muitas vezes nas minhas andanças. Estamos falando agora da Regressão Múltipla, ou da Seleção de Modelos, e de outras análises similares. Porque nós temos, sim, múltiplas variáveis – mas são múltiplas variáveis explanatórias. A variável-resposta é uma só: a velocidade de um calango em movimento.

Jean abaixa a cabeça novamente. – Então voltei à estaca zero…

– Claro que não, corajoso nômade! Pois agora que você sabe o que ela não é, você pode chegar ao que ela é. – Bia aponta na direção do horizonte, onde se mostra um oásis – ou talvez a miragem de um oásis. – Aquele oásis. Existem outros como ele neste deserto – parecidos, mas diferentes. Onde estão tais diferenças?

– Bom, eles têm árvores, de diferentes alturas. E eles têm áreas diferentes. A profundidade da água neles vai variar, assim como as espécies de flores que neles florescem. São tantas coisas! É quase impossível nomear todas elas agora.

– Sim. Então, se você fosse comparar entre eles, você mediria apenas a altura das árvores? Ou apenas a profundidade da água? O número de espécies de flores?

– Não, claro que não! Eu mediria tudo isso, e juntaria todas essas informações em uma única planilha, onde teríamos, para cada oásis, os valores de diferentes variáveis que o descrevem. A resposta está em todas elas, não em uma única.

– Pois está aqui a sua resposta, homem do deserto. Não estamos falando de uma única variável-resposta, e sim de muitas. Esta é a Estatística Multivariada – quando não podemos descrever um objeto usando uma única variável. E isso se aplica a inúmeras outras situações. As espécies de flores em um campo nas Terras Úmidas – a abundância de cada espécie é uma variável. Os abrigos onde os calangos se escondem, caracterizados por largura, profundidade, temperatura, tipo de rocha. A temperatura, profundidade, quantidade de fósforo e nitrogênio em um rio. Quando essas são as nossas variáveis-resposta, a Estatística Multivariada surge. O que você precisa ter em mente é essa diferenciação – se as múltiplas variáveis são as resposta ou as explanatórias.

– Mas… Nem sempre isso é claro.

– De fato. Mas, me permita dar um exemplo. Podemos querer saber como a localização do oásis afeta as suas características. Um oásis em um solo mais rico terá mais árvores; mas se colocarmos mais árvores num oásis, isso não vai automaticamente aumentar a riqueza do seu solo. Estamos no reino da Estatística Multivariada. Por outro lado, podemos querer saber como as características do oásis afetam o tempo que um calango permanece neles. Neste caso, voltamos à Regressão Múltipla e à Seleção de Modelos.
Jean se levanta.

– Acho que entendi. É uma questão de quem afeta e quem é afetado. Se quem é afetado só pode ser descrito por múltiplas variáveis, a Estatística Multivariada vem ao nosso auxílio. Meu espírito está mais leve agora. Mas, antes que eu siga, me diga: Onde posso procurar mais conhecimento sobre isso?

– Procure os sábios Legendre e Legendre. Eles têm as respostas que você busca.

– Meus agradecimentos, nobre guerreira.

– Que você sempre encontre água e sombra, peregrino.

Seus caminhos demoram a se cruzar novamente.

Multivar2.jpg

Ilustração por Nantathu

* Qualquer semelhança com pessoas reais é mera coincidência, ou não.

3 pensamentos sobre “Diálogo sobre a Estatística Multivariada

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s