Existe um problema sério com a remoção de observações com valores ausentes ao calcular a matriz de correlação?

12

Eu tenho esse enorme conjunto de dados com 2500 variáveis ​​e 142 observações.

Eu quero executar uma correlação entre a variável X e o resto das variáveis. Mas para muitas colunas, há entradas ausentes.

Tentei fazer isso no R usando o argumento "pairwise-complete" ( use=pairwise.complete.obs) e ele gerou várias correlações. Mas então alguém no StackOverflow postou um link para este artigo http://bwlewis.github.io/covar/missing.html e faz com que o método "complete-a-par" em R pareça inutilizável.

Minha pergunta: como sei quando é apropriado usar a opção "pairwise-complete"?

Meu use = complete.obsretorno no complete element pairs, por isso, se você pudesse explicar o que isso significa também, seria ótimo.

Stan Shunpike
fonte
4
Uma história clássica a saber é a história de Abraham Wald e a questão de onde adicionar armaduras aos aviões na Segunda Guerra Mundial . É importante entender por que seus dados estão ausentes.
Matthew Gunn

Respostas:

11

O problema com correlações em observações completas aos pares

No caso que você descreve, a questão principal é a interpretação. Como você está usando observações completas aos pares, na verdade está analisando conjuntos de dados ligeiramente diferentes para cada uma das correlações, dependendo de quais observações estão faltando.

Considere o seguinte exemplo:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Três variáveis no conjunto de dados, a, b, e c, cada um tem alguns valores em falta. Se você calcular correlações em pares de variáveis ​​aqui, poderá usar casos que não possuem valores ausentes para as duas variáveis ​​em questão. Nesse caso, isso significa que você analisará apenas os três últimos casos para a correlação entre ae b, apenas os três primeiros para a correlação entre be c, etc.

O fato de você estar analisando casos completamente diferentes quando calcula cada correlação significa que o padrão resultante de correlações pode parecer sem sentido. Vejo:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Isto parece uma contradição lógica --- ae bestão fortemente correlacionados positivamente, e be csão também fortemente correlacionada positivamente, de modo que seria de esperar ae cde ser positivamente correlacionada bem, mas há realmente uma forte associação na direção oposta. Você pode ver por que muitos analistas não gostam disso.

Edite para incluir esclarecimentos úteis do whuber:

Observe que parte do argumento depende do significado da correlação "forte". É bem possível, ae bassim como, be cestar "fortemente correlacionado positivamente", enquanto existe uma "forte associação na direção oposta" entre ae c, mas não tão extrema quanto neste exemplo. O cerne da questão é que a matriz estimada de correlação (ou covariância) pode não ser positiva-definida: é assim que se deve quantificar "forte".

O problema com o tipo de falta

Você pode estar pensando consigo mesmo: "Bem, não há problema em assumir que o subconjunto de casos que tenho disponível para cada correlação segue mais ou menos o mesmo padrão que eu obteria se tivesse dados completos?" E sim, isso é verdade --- não há nada de fundamentalmente errado em calcular uma correlação em um subconjunto de seus dados (embora você perca precisão e potência, é claro, devido ao tamanho menor da amostra), desde que os dados disponíveis sejam aleatórios amostra de todos os dados que estariam lá se você não tivesse nenhuma falta.

Quando a falta é puramente aleatória, isso se chama MCAR (falta completamente aleatória). Nesse caso, analisar o subconjunto de dados que não possui falta não influencia sistematicamente seus resultados e seria improvável (mas não impossível) obter o tipo de padrão de correlação maluco que mostrei no exemplo acima.

Quando a sua falta é sistemática de alguma forma (MAR ou NI, muitas vezes abreviada, delineando dois tipos diferentes de falta sistemática), você tem problemas muito mais sérios, tanto em termos de possível introdução de viés em seus cálculos quanto em sua capacidade de generalizar sua resultados para a população de interesse (porque a amostra que você está analisando não é uma amostra aleatória da população, mesmo que seu conjunto de dados completo fosse).

Há um monte de grandes recursos disponíveis para aprender sobre a falta de dados e como lidar com ele, mas a minha recomendação é Rubin: um clássico , e um artigo mais recente

Rose Hartman
fonte
2
+1. Observe que parte do seu argumento depende do significado da correlação "forte". É bem possível que e , bem como e para ser "fortemente correlacionada positivamente" enquanto existe uma "forte associação na direcção oposta" entre e . No entanto, não é possível que todos os três coeficientes de correlação sejam tão extremos quanto no seu exemplo, então você está bem lá. O cerne da questão é que a matriz estimada de correlação (ou covariância) pode não ser positiva-definida: é assim que se deve quantificar "forte". b b c a cabbcac
whuber
1
@whuber Obrigado, esse é um ponto importante. Atualizei essa seção da resposta para incluir esse esclarecimento.
Rose Hartman
7

Uma grande preocupação é a falta sistemática de dados que corromperiam sua análise. Seus dados podem estar faltando não aleatoriamente.

Isso foi mencionado nas respostas anteriores, mas pensei em contribuir com um exemplo.

Exemplo financeiro: retornos ausentes podem ser retornos ruins

  • Diferentemente dos fundos mútuos, os fundos de private equity (e outros fundos privados) não são obrigados por lei a relatar seus retornos a algum banco de dados central.
  • Portanto, uma grande preocupação é que os relatórios sejam endógenos, mais especificamente, que algumas empresas não relatem retornos ruins.
  • Se assim for, a sua média de relatados retornos do fundo vai superestimar a média verdadeira, porque baixa tendem a estar ausentes.Ri1niRiRi

Nem tudo está necessariamente perdido nessas situações (há coisas que você pode fazer), mas executar uma regressão (ou correlações computacionais) ingenuamente nos dados não ausentes pode levar a estimativas seriamente tendenciosas e inconsistentes dos verdadeiros parâmetros da população.

Matthew Gunn
fonte
4

A correlação pareada é apropriada se os dados ausentes forem Faltam Completos Aleatoriamente (MCAR). O livro de dados ausentes de Paul Allison é um bom ponto de partida para o porquê.

Você pode testar isso usando o teste MCAR de Little (1988), que está no BaylorEdPsychpacote.

Tim
fonte
1
Ainda há motivos de preocupação: mesmo com os dados do MCAR, a matriz de correlação estimada por meio de correlação pareada pode falhar em ser definida positivamente.
whuber
Claro, mas a pergunta é sobre correlação, ela não faz nenhuma menção ao uso da matriz de correlação resultante como uma entrada para algum outro algoritmo. E, dado o tamanho da amostra, o MCAR é bastante improvável de qualquer maneira.
Tim
1
Se a matriz não for positiva, é uma estimativa inválida. No mínimo, precisamos nos preocupar com essa inconsistência. Receio não ver como a probabilidade de MCAR (que é um mecanismo de falta) pode estar relacionada ao tamanho da amostra.
whuber
O solicitante está interessado em uma única linha da matriz de correlação. Você tem uma prova que mostre que as correlações de uma linha são todas inválidas se a matriz não for definida positivamente? Eu adoraria ver uma prova disso e ganhar alguma sabedoria. O MCAR é, em geral, bastante improvável com dados do mundo real. Com um grande tamanho de amostra, o poder do teste de Little aumenta, então há uma boa chance de rejeição da hipótese nula do MCAR. Não me interpretem mal aqui: eu nunca usaria uma matriz de correlação de dados parciais como entrada para um método multivariado, mas não é sobre isso que a pergunta é feita.
Tim
1
Deixe-me esclarecer: não afirmei que as correlações são "todas inválidas". Afirmei que a coleção de estimativas de correlação (ou seja, a matriz) pode ser inválida. Isso é indiscutível (não requer provas), porque tudo que você precisa fazer é exibir uma instância de uma estimativa inválida, o que o @RoseHartman já fez neste segmento. Não contestarei sua alegação de que o MCAR pode ser improvável - desde que seja entendido em um sentido pessoal: na sua experiência, com os tipos de dados que você conhece, o MCAR é raro. Não vejo como você possa justificar uma interpretação mais ampla dessa alegação.
whuber