Por que não é correto fazer uma correlação de Pearson em dados de proporção?

10

Um módulo on-line que estou estudando afirma que nunca se deve usar a correlação de Pearson com dados de proporção. Por que não?

Ou, se às vezes está bom ou sempre bem, por que?

user1205901 - Restabelecer Monica
fonte
3
O que diz isso e em que contexto? "Nunca" parece muito forte, a menos que eles estejam falando de uma situação muito limitada. Pode ser que quem escreveu isso esteja simplesmente errado, mas sem contexto, como devemos adivinhar?
Glen_b -Reinstala Monica 31/03
2
O módulo on-line é proprietário e não consigo vinculá-lo. No entanto, encontrei um vídeo que afirma a mesma coisa: australianbioinformatics.net/the-pipeline/2013/3/19/… . Tanto o módulo que vi como este vídeo indicam que não há contextos em que proporções correlatas sejam aceitáveis.
User1205901 - Restabelece Monica
4
"Nunca" é muito forte. Há razões para ser cauteloso ao interpretar os coeficientes de correlação que envolvem proporções, especialmente aquelas baseadas em pequenas contagens. Mas a mesma análise que sustenta essas razões também mostra que, quando as proporções são baseadas em contagens grandes e as proporções são "suficientemente distantes" de ou 1 , os coeficientes de correlação não são problemáticos. Além disso, sempre é possível relatar um coeficiente de correlação para qualquer conjunto de dados emparelhados (em que os dois componentes exibem variação) como uma estatística resumida (descritiva). 0 01 1
whuber

Respostas:

6

Isto é para um caso em que várias variáveis ​​somam 1, em cada observação. Minha resposta será no nível da intuição; isso é intencional (e também não sou especialista em dados de composição).

Vamos ter variáveis ​​de valor positivo iid (portanto, correlacionadas a zero) que depois somamos e recalculamos como proporções dessa soma. Então,

  • No caso de duas variáveis V1 V2 , se diz-se que V1 varia livremente, V2 não tem espaço para liberdade (já que V1 + V2 = constante) e é totalmente fixo; quanto maior é V1, menor é V2, menor é V1, maior é V2. Sua correlação é mas e é sempre assim.-1 1
  • No caso de 3 variáveis V1 V2 V3 , se se diz que V1 varia livremente, então V2 + V3 é fixo; o que quer dizer que dentro (V2 + V3) cada uma das duas variáveis ainda são parcialmente livres: são em média horas fixas cada, cheio fixo no total. Assim, se qualquer uma das três variáveis é tomado como livre (como a que levou V1), qualquer um dos dois restantes é esperado 1 / 2 fixa. Portanto, a correlação entre eles é - 0,5 . Essa é a correlação esperada ; pode variar de amostra para amostra.1 1/21 1/2-0,5
  • No caso de 4 variáveis V1 V2 V3 V4 pelo mesmo raciocínio, temos que, se se tiver qualquer um dos quatro como livre, então é esperado qualquer um dos restantes para ser fixo; assim, o esperado correlação entre qualquer par da 4-1 como livre o outro como 1 / 3 fixo - é - 0,333 .1 1/31 1/3-0,333
  • À medida que o número de variáveis ​​(inicialmente iid) aumenta, a correlação esperada em pares aumenta de negativa para e sua variação de amostra para amostra se torna maior.0 0
ttnphns
fonte
OK, mas acho que o interesse está nos pares V1, V2, cada V somando 1 (100%), mas nenhuma restrição no V individual, exceto que cada um é uma fração.
Nick Cox
each V summing to 1 ( 100%)Com licença? Eu não te entendi Não coloquei nenhuma restrição no V individual, sendo apenas uma fração. No entanto, a restrição inicial foi que meu exemplo assume zero correlações antes de transformar Vs em frações.
ttnphns
Você quis dizer que cada V tem valores que somam 1 ("verticalmente")? Não, eu quis dizer "horisontally", através de variáveis. Mas, infelizmente, o OP não esclareceu o ponto da pergunta. Então eu peguei como eu peguei.
ttnphns
Sim; ou seja, acho que o que geralmente se entende aqui, mas a questão não é especialmente clara.
Nick Cox
11
@ttnphns Vi uma afirmação de que nunca se deve fazer uma correlação de Pearson com duas variáveis ​​medidas como proporções. Tentei esclarecer isso editando o OP para destacar a palavra 'nunca'. O vídeo faz a mesma afirmação em seu título ("Não correlacione proporções!"), Embora eles discutam isso apenas no contexto de dados composicionais. Eu deliberadamente deixei o contexto indefinido porque minha fonte afirmou que as correlações de Pearson não deveriam ser usadas em dados de proporção em nenhum contexto. No entanto, parece que a resposta para minha pergunta é: "Correlacionar proporções é bom, exceto em alguns contextos".
user1205901 - Reintegrar Monica
10

O link do vídeo do seu comentário define o contexto para o das composições, que também podem ser chamadas de misturas. Nesses casos, a soma da proporção de cada componente é igual a 1. Por exemplo, o ar é 78% de nitrogênio, 21% de oxigênio e 1% de outro (o total é 100%). Dado que a quantidade de um componente é completamente determinada pelos outros, quaisquer dois componentes terão um relacionamento multilinear perfeito. Para o exemplo do ar, temos:

x1 1+x2+x3=1 1

Então:

x1 1=1 1-x2-x3

x2=1 1-x1 1-x3

x3=1 1-x1 1-x2

Portanto, se você conhece dois componentes, o terceiro é imediatamente conhecido.

Em geral, a restrição de misturas é

Eu=1 1qxEu=1 1

xEu

Você pode calcular uma correlação entre dois componentes, mas não é informativo , pois eles sempre estão correlacionados. Você pode ler mais sobre a análise composicional em Analisando dados medidos como composição proporcional .

Você pode usar a correlação quando os dados da proporção forem de domínios diferentes. Digamos que sua resposta seja uma fração de pixels mortos em uma tela LCD. Você pode tentar correlacionar isso com, digamos, a fração de hélio usada em uma etapa de processamento químico da tela.

escurecer
fonte
Entendo - pensei erroneamente que as composições eram apenas um exemplo. Portanto, é justo dizer que proporções correlatas geralmente não são problemáticas, a menos que você tenha uma situação em que as composições 'forçam' uma correlação a existir?
user1205901 - Reintegrar Monica
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipnão está claro. Você pode expandi-lo?
ttnphns
Eu também não entendo esta resposta. No seu exemplo de 3 variáveis, cada uma é "determinada" por DUAS outras, mas a correlação de Pearson analisa apenas uma variável em relação a UMA outra. Portanto, por exemplo, se você olhar para nitrogênio x oxigênio, poderá ter um conjunto de dados (nitrogênio, oxigênio) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)] e poderá fazer um coeficiente de correlação válido cálculo nesses dados (e certamente não é co-linear). O coeficiente de correlação de Pearson não sabe ou cuidado sobre o "outro" lá ...
Jason C
3
Como uma espécie de meta-comentário, eu não esperaria ver material inacessível citado como autoridade para qualquer ponto estatístico, não que você esteja propondo fazer isso. Portanto, é simples em um nível: existe uma literatura sobre análise de dados composicionais, que é onde procurar; Como não sou especialista, não posso dizer o que há de mais autoritário na correlação, mas meu instinto é que o aviso seja exagerado. O uso descritivo da correlação pode ser útil. Apenas as inferências são complicadas pela restrição de totais.
Nick Cox
Eu acho que a "fração de pixels mortos" ficaria bem se estivéssemos coletando medições em telas de LCD com o mesmo número de pixels e a pressão do gás no processo permanecesse constante. Mas uma vez que você começa a permitir que os denominadores dessas proporções mudem, quem pode dizer qual é o efeito do hélio?
David Lovell
5

Essa é uma pergunta profunda e com algumas sutilezas que precisam ser declaradas. Farei o meu melhor, mas mesmo que tenha publicado sobre este tópico ( Proporcionalidade: uma alternativa válida à correlação para dados relativos ), estou sempre preparado para ser surpreendido por novas idéias sobre a análise de dados que contêm apenas informações relativas.

Como os contribuidores deste tópico apontaram, a correlação é notória (em alguns círculos) por não ter sentido quando aplicada aos dados de composição que surgem quando um conjunto de componentes é restrito a adicionar uma constante (como vemos em proporções, porcentagens, partes por milhão etc.).

Karl Pearson cunhou o termo correlação espúria com isso em mente. (Nota: O popular site de Correlação espúria de Tyler Vigen não tem tanto a ver com correlação espúria como a falácia " correlação implica causalidade ".)

A Seção 1.7 de Um Guia Conciso de Análise Composicional de Aitchison (2003) fornece uma ilustração clássica de por que a correlação é uma medida inadequada de associação para dados composicionais (por conveniência, citado nestas Informações Complementares) .

Os dados composicionais surgem não apenas quando um conjunto de componentes não negativos é feito para somar uma constante; os dados são considerados composicionais sempre que carregam apenas informações relativas.

Eu acho que o principal problema com a correlação de dados que carregam apenas informações relativas está na interpretação do resultado. Esse é um problema que podemos ilustrar com uma única variável; digamos "rosquinhas produzidas por dólar do PIB" em todas as nações do mundo. Se o valor de uma nação é maior que o de outra, é porque

  • sua produção de rosquinha é maior?
  • seu PIB é menor?

...quem pode dizer?

Obviamente, como as pessoas comentam sobre esse tópico, pode-se calcular correlações desses tipos de variáveis ​​como uma variável descritiva. Mas o que essas correlações significam?

David Lovell
fonte
3

Eu tive a mesma pergunta. Achei esta referência no biorxiv útil:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporcionalidade: uma alternativa válida à correlação para dados relativos"

Nas informações de suporte deste artigo (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), os autores mencionam que correlações entre abundâncias relativas não fornecem nenhuma informação em alguns casos. Eles dão um exemplo de abundância relativa de duas expressões de mRNA. Na Figura S2, as abundâncias relativas dos dois mRNAs diferentes estão perfeitamente correlacionadas negativamente, embora a correlação desses dois mRNAs em valores absolutos não seja negativamente relacionada (pontos verdes e roxos).

Talvez isso possa ajudá-lo.

processar
fonte
2
Obrigado pela sua sugestão. Eu não deixei claro. Em informações de suporte deste artigo (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417 ), os autores mencionam que correlações entre abundâncias relativas não fornecem nenhuma informação em alguns casos. Eles dão um exemplo de abundância relativa de duas expressões de mRNA. Na Figura S2, as abundâncias relativas dos dois mRNAs diferentes estão perfeitamente correlacionadas negativamente, mesmo que a correlação desses dois mRNAs em valores absolutos não seja negativa (pontos verdes e roxos).
Processa
@ shu talvez você possa dizer por que este artigo o ajudou com um problema semelhante e resumir isso ..? Colar o link não é uma resposta; portanto, elabore um pouco mais. A razão para isso é também porque os links morrem e se você deseja que sua resposta seja útil para alguém no futuro, você deve torná-la autoconsistente. É claro que fornecer referências adicionais à sua resposta é um bom hábito.
Tim