Eu tive esses dois explicados várias vezes. Eles continuam a cozinhar meu cérebro. Faltar não ao acaso faz sentido, e Faltar completamente ao acaso faz sentido ... é o Desaparecimento ao acaso que não faz tanto.
O que gera dados que seriam MAR, mas não MCAR?
missing-data
Fomite
fonte
fonte
Respostas:
Faltar aleatoriamente (MAR) significa que a falta pode ser explicada por variáveis sobre as quais você tem informações completas. Não é uma suposição testável, mas há casos em que é razoável versus não.
Por exemplo, faça pesquisas de opinião política. Muitas pessoas se recusam a responder. Se você presumir que os motivos pelos quais as pessoas se recusam a responder são inteiramente baseados em dados demográficos e se você os tiver em cada pessoa, os dados serão MAR. Sabe-se que algumas das razões pelas quais as pessoas se recusam a responder podem ser baseadas em dados demográficos (por exemplo, pessoas com renda baixa e alta são menos propensas a responder do que aquelas no meio), mas não há realmente nenhuma maneira de saber se isso é a explicação completa.
Então, a pergunta se torna "está cheia o suficiente?". Freqüentemente, métodos como imputação múltipla funcionam melhor que outros métodos, desde que os dados não faltem muito e não sejam aleatórios.
fonte
Amelia
,mi
, emice
. As semelhanças e diferenças são fascinantes. (Amelia
'Sover impute
é bastante interessante.)Não tenho certeza se isso está correto, mas a maneira como tentei entender é como se houvesse uma matriz de possibilidades 2x2 que não é muito simétrica. Algo como:
Ou seja, se existe um padrão para a falta de uma variável e os dados que temos não podem explicá-la, temos MNAR, mas se os dados que temos (ou seja, outras variáveis em nosso conjunto de dados) podem explicar que temos MAR. Se não houver um padrão para a falta, é MCAR.
Eu posso estar longe daqui. Além disso, isso deixa aberta a definição de "Padrão" e "Dados explica". Penso em "Dados explica" como o significado de outras variáveis em seu conjunto de dados, mas acredito que seu procedimento também pode explicá-lo (por exemplo, um bom exemplo em outro encadeamento é se você tiver três variáveis de medição que medem a mesma coisa e sua O procedimento é se as duas primeiras medições discordam demais e você faz uma terceira medição).
Isso é preciso o suficiente para a intuição, CV?
fonte
Eu também estava lutando para entender a diferença, então talvez alguns exemplos possam ajudar.
MCAR : Faltando completamente ao acaso , isso é ótimo. Isso significa que a não resposta é completamente aleatória. Portanto, sua pesquisa não é tendenciosa.
MAR : Faltando aleatoriamente , pior situação. Imagine que você está pedindo QI e tem muito mais participantes do que mulheres. Para sua sorte, o QI não está relacionado ao gênero; portanto, você pode controlar o sexo (aplicar ponderação) para reduzir o viés.
MNAR : Não falta aleatoriamente , é ruim. Considere fazer uma pesquisa para o nível de renda. E, novamente, você tem mais mulheres do que homens participantes. Nesse caso, isso é um problema, porque o nível de renda está relacionado ao gênero. Portanto, seus resultados serão tendenciosos. Não é fácil se livrar.
Veja bem, é uma relação de "triângulo" entre a variável de destino (Y, como renda), variável auxiliar (X, como idade) e o comportamento da resposta (R, o grupo de resposta). Se X estiver relacionado apenas a R, good-ish (MAR). Se houver relação entre X e R e X e Y, é ruim (MNAR).
fonte