Eu tenho esse enorme conjunto de dados com 2500 variáveis e 142 observações.
Eu quero executar uma correlação entre a variável X e o resto das variáveis. Mas para muitas colunas, há entradas ausentes.
Tentei fazer isso no R usando o argumento "pairwise-complete" ( use=pairwise.complete.obs
) e ele gerou várias correlações. Mas então alguém no StackOverflow postou um link para este artigo http://bwlewis.github.io/covar/missing.html e faz com que o método "complete-a-par" em R pareça inutilizável.
Minha pergunta: como sei quando é apropriado usar a opção "pairwise-complete"?
Meu use = complete.obs
retorno no complete element pairs
, por isso, se você pudesse explicar o que isso significa também, seria ótimo.
r
correlation
missing-data
correlation-matrix
Stan Shunpike
fonte
fonte
Respostas:
O problema com correlações em observações completas aos pares
No caso que você descreve, a questão principal é a interpretação. Como você está usando observações completas aos pares, na verdade está analisando conjuntos de dados ligeiramente diferentes para cada uma das correlações, dependendo de quais observações estão faltando.
Considere o seguinte exemplo:
Três variáveis no conjunto de dados,
a
,b
, ec
, cada um tem alguns valores em falta. Se você calcular correlações em pares de variáveis aqui, poderá usar casos que não possuem valores ausentes para as duas variáveis em questão. Nesse caso, isso significa que você analisará apenas os três últimos casos para a correlação entrea
eb
, apenas os três primeiros para a correlação entreb
ec
, etc.O fato de você estar analisando casos completamente diferentes quando calcula cada correlação significa que o padrão resultante de correlações pode parecer sem sentido. Vejo:
Isto parece uma contradição lógica ---
a
eb
estão fortemente correlacionados positivamente, eb
ec
são também fortemente correlacionada positivamente, de modo que seria de esperara
ec
de ser positivamente correlacionada bem, mas há realmente uma forte associação na direção oposta. Você pode ver por que muitos analistas não gostam disso.Edite para incluir esclarecimentos úteis do whuber:
Observe que parte do argumento depende do significado da correlação "forte". É bem possível,
a
eb
assim como,b
ec
estar "fortemente correlacionado positivamente", enquanto existe uma "forte associação na direção oposta" entrea
ec
, mas não tão extrema quanto neste exemplo. O cerne da questão é que a matriz estimada de correlação (ou covariância) pode não ser positiva-definida: é assim que se deve quantificar "forte".O problema com o tipo de falta
Você pode estar pensando consigo mesmo: "Bem, não há problema em assumir que o subconjunto de casos que tenho disponível para cada correlação segue mais ou menos o mesmo padrão que eu obteria se tivesse dados completos?" E sim, isso é verdade --- não há nada de fundamentalmente errado em calcular uma correlação em um subconjunto de seus dados (embora você perca precisão e potência, é claro, devido ao tamanho menor da amostra), desde que os dados disponíveis sejam aleatórios amostra de todos os dados que estariam lá se você não tivesse nenhuma falta.
Quando a falta é puramente aleatória, isso se chama MCAR (falta completamente aleatória). Nesse caso, analisar o subconjunto de dados que não possui falta não influencia sistematicamente seus resultados e seria improvável (mas não impossível) obter o tipo de padrão de correlação maluco que mostrei no exemplo acima.
Quando a sua falta é sistemática de alguma forma (MAR ou NI, muitas vezes abreviada, delineando dois tipos diferentes de falta sistemática), você tem problemas muito mais sérios, tanto em termos de possível introdução de viés em seus cálculos quanto em sua capacidade de generalizar sua resultados para a população de interesse (porque a amostra que você está analisando não é uma amostra aleatória da população, mesmo que seu conjunto de dados completo fosse).
Há um monte de grandes recursos disponíveis para aprender sobre a falta de dados e como lidar com ele, mas a minha recomendação é Rubin: um clássico , e um artigo mais recente
fonte
Uma grande preocupação é a falta sistemática de dados que corromperiam sua análise. Seus dados podem estar faltando não aleatoriamente.
Isso foi mencionado nas respostas anteriores, mas pensei em contribuir com um exemplo.
Exemplo financeiro: retornos ausentes podem ser retornos ruins
Nem tudo está necessariamente perdido nessas situações (há coisas que você pode fazer), mas executar uma regressão (ou correlações computacionais) ingenuamente nos dados não ausentes pode levar a estimativas seriamente tendenciosas e inconsistentes dos verdadeiros parâmetros da população.
fonte
A correlação pareada é apropriada se os dados ausentes forem Faltam Completos Aleatoriamente (MCAR). O livro de dados ausentes de Paul Allison é um bom ponto de partida para o porquê.
Você pode testar isso usando o teste MCAR de Little (1988), que está no
BaylorEdPsych
pacote.fonte