Distinguir falta aleatória (MAR) de falta completamente aleatória (MCAR)

13

Eu tive esses dois explicados várias vezes. Eles continuam a cozinhar meu cérebro. Faltar não ao acaso faz sentido, e Faltar completamente ao acaso faz sentido ... é o Desaparecimento ao acaso que não faz tanto.

O que gera dados que seriam MAR, mas não MCAR?

Fomite
fonte
Sua pergunta foi respondida por outra pergunta: Existe uma boa razão para o nome "Missing at Random"? e os recursos que eles listam?
Andy W
3
@AndyW Para ser franco, não. Uma discussão interessante sobre por que o nome é falho e um artigo escondido atrás de um muro de assinaturas.
Fomite

Respostas:

18

Faltar aleatoriamente (MAR) significa que a falta pode ser explicada por variáveis ​​sobre as quais você tem informações completas. Não é uma suposição testável, mas há casos em que é razoável versus não.

Por exemplo, faça pesquisas de opinião política. Muitas pessoas se recusam a responder. Se você presumir que os motivos pelos quais as pessoas se recusam a responder são inteiramente baseados em dados demográficos e se você os tiver em cada pessoa, os dados serão MAR. Sabe-se que algumas das razões pelas quais as pessoas se recusam a responder podem ser baseadas em dados demográficos (por exemplo, pessoas com renda baixa e alta são menos propensas a responder do que aquelas no meio), mas não há realmente nenhuma maneira de saber se isso é a explicação completa.

Então, a pergunta se torna "está cheia o suficiente?". Freqüentemente, métodos como imputação múltipla funcionam melhor que outros métodos, desde que os dados não faltem muito e não sejam aleatórios.

Peter Flom - Restabelece Monica
fonte
5
The Journal of Statistical Software (online) teve uma edição recente sobre imputação múltipla, e eu estive olhando os Três Grandes vários pacotes imputação para R: Amelia, mi, e mice. As semelhanças e diferenças são fascinantes. ( Amelia'S over imputeé bastante interessante.)
Wayne
1
Aqui está o link para a questão do JSS: jstatsoft.org/v45
gung - Reinstate Monica
11

Não tenho certeza se isso está correto, mas a maneira como tentei entender é como se houvesse uma matriz de possibilidades 2x2 que não é muito simétrica. Algo como:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Ou seja, se existe um padrão para a falta de uma variável e os dados que temos não podem explicá-la, temos MNAR, mas se os dados que temos (ou seja, outras variáveis ​​em nosso conjunto de dados) podem explicar que temos MAR. Se não houver um padrão para a falta, é MCAR.

Eu posso estar longe daqui. Além disso, isso deixa aberta a definição de "Padrão" e "Dados explica". Penso em "Dados explica" como o significado de outras variáveis ​​em seu conjunto de dados, mas acredito que seu procedimento também pode explicá-lo (por exemplo, um bom exemplo em outro encadeamento é se você tiver três variáveis ​​de medição que medem a mesma coisa e sua O procedimento é se as duas primeiras medições discordam demais e você faz uma terceira medição).

Isso é preciso o suficiente para a intuição, CV?

Wayne
fonte
-1

Eu também estava lutando para entender a diferença, então talvez alguns exemplos possam ajudar.

MCAR : Faltando completamente ao acaso , isso é ótimo. Isso significa que a não resposta é completamente aleatória. Portanto, sua pesquisa não é tendenciosa.

MAR : Faltando aleatoriamente , pior situação. Imagine que você está pedindo QI e tem muito mais participantes do que mulheres. Para sua sorte, o QI não está relacionado ao gênero; portanto, você pode controlar o sexo (aplicar ponderação) para reduzir o viés.

MNAR : Não falta aleatoriamente , é ruim. Considere fazer uma pesquisa para o nível de renda. E, novamente, você tem mais mulheres do que homens participantes. Nesse caso, isso é um problema, porque o nível de renda está relacionado ao gênero. Portanto, seus resultados serão tendenciosos. Não é fácil se livrar.

Veja bem, é uma relação de "triângulo" entre a variável de destino (Y, como renda), variável auxiliar (X, como idade) e o comportamento da resposta (R, o grupo de resposta). Se X estiver relacionado apenas a R, good-ish (MAR). Se houver relação entre X e R e X e Y, é ruim (MNAR).

HonzaB
fonte