É sempre bom deixar de lado as observações que faltam?

8

Eu tenho um conjunto de dados que analisa solicitações de imigração e aceitação de vistos (concessão de vistos). As taxas são calculadas para "aceito" e "rejeitado" dos pedidos de visto.

No entanto, o conjunto de dados também possui valores para casos que foram fechados. Normalmente é quando o imigrante para de comparecer a compromissos, migra para outro lugar ou morre. Como esses números não são usados ​​quando as taxas são calculadas, as taxas geralmente aparecem como ausentes (porque os casos não foram aceitos nem rejeitados).

Dito isto, se os únicos casos para esse ano foram "encerrados de outra forma", será bom abandonar essas observações? Parte do problema que estou tendo é que anos aleatórios no conjunto de dados serão descartados, porque as únicas decisões para esse ano foram fechadas.

Os casos encerrados de outra forma são muito arbitrários e, como mencionei, são provavelmente os casos em que o imigrante migrou para outro lugar e provavelmente apenas usou o primeiro país como local de trânsito temporário. Os dados não dizem especificamente por que os imigrantes foram embora, por que foram fechados etc. Não tenho muita certeza de como lidar com esses valores ausentes. Não acredito que os métodos padrão de imputação funcionem aqui, devido aos cálculos de taxa (mas posso estar errado).

EJ16
fonte
1
Você não os largaria. Você pode aplicar várias imputações. Veja artigo e livros em co-autoria de Donald Rubin e Rod Little.
Michael R. Chernick
1
A imputação múltipla assume que os dados estão ausentes aleatoriamente? Esses dados estão faltando aleatoriamente? MI sempre me impressiona um pouco, e esse é um motivo.
EJ16
2
Você levanta um bom argumento. Eles classificam os dados ausentes como 1) faltando completamente aleatoriamente, 2) faltando aleatoriamente e 3) não faltando aleatoriamente. Essas categorias são explicadas em seus livros. Se você ler o trabalho deles e entender seus dados, poderá aplicar o método corretamente. Você tem três situações: o imigrante parou de aparecer, foi para outro lugar ou morreu. Isso parece não ser aleatório, mas você pode ver, com base no que aconteceu com eles, a probabilidade de aceitação.
Michael R. Chernick
Nos casos em que você não tiver certeza se seus dados são MCAR, MAR ou MNAR, pode ser útil considerar plotagens de dados ausentes. Aqui está um exemplo de construção de um gráfico usando ggplot2 e o pacote de estatísticas R.
25417 Wes Wes
1
Você não pode incluir uma terceira categoria, "caso eliminado", em seus dados? Talvez então uma análise diferente a trate de maneira diferente? Apenas cair parece estranho.
b Kjetil Halvorsen

Respostas:

6

A distinção importante não é, no seu caso, a distinção entre MCAR, MAR e NMAR, mas entre valores omissos reais e valores omissos mecânicos. Valores ausentes reais são valores que existem, mas por algum motivo não foram registrados. Os valores faltantes mecânicos não existem, mas a estrutura retangular de um conjunto de dados nos obriga a atribuir um valor a ele, por exemplo, status de gravidez se seu conjunto de dados também incluir homens. As técnicas de imputação são projetadas para valores ausentes reais. Seu exemplo é um caso de valores ausentes mecânicos; a decisão não foi tomada, portanto seu valor não existe. Se uma parte substancial dos migrantes seguir em frente, essa é uma característica importante do processo de migração, e a imputação desses valores oculta essa característica.

Maarten Buis
fonte
Ao contrário da gravidez masculina, no entanto, poderia ter havido uma decisão de aceitação / rejeição nos casos em que as pessoas morriam, seguiam em frente ou paravam de aparecer. Na análise de sobrevivência, estes poderiam ser tratados de maneira inteligente como casos censurados, desde que a censura não fosse informativa. Gostaria de saber se existe alguma maneira de incorporar o status censurado na análise para este caso em questão.
EdM
Maarten, muito obrigado. Faz sentido. Eu também pensei que talvez fosse uma forma de censura (por exemplo, morte de migrantes). Mas não entendo o que "imputar esses valores oculta esse recurso". Isso significa, então, que múltiplas imputações não devem ser feitas? Se sim, quais são as outras opções? Eu ainda estou coçando minha cabeça.
EJ16 26/03
Talvez, e aqueles foram registrados como aceitos / negados. Mas há anos em que nenhuma decisão foi tomada e as únicas decisões que foram tomadas foram "fechadas de outra maneira". Então, essa é a parte que eu estou preso no momento.
EJ16
Maarten, não importa. Reli a resposta e agora entendo que o MI não seria suficiente para isso. Atualmente, está mostrando que cerca de metade dos casos está encerrada e, portanto, está ausente. Acho que minha pergunta ainda é o que fazer com esses casos, porque o procedimento padrão não é para incluí-los nos cálculos de taxa.
EJ16
+1 boa resposta. Um ponto digno de nota é que os MVs "mecânicos" são mais comumente referidos como "zeros estruturais" ou valores nulos, pelo menos na literatura norte-americana.
Mike Hunter
1

É evidente uma mistura de pelo menos 2 processos diferentes de falta.

  1. Pessoas que morrem de procedimento não relacionadas a causas / abandonam / etc. devido a outras razões que não o resultado provável do procedimento. Aqui, alguma imputação no MAR faz sentido (se você conseguir identificar claramente os casos).
  2. Pessoas que desistiram / desistiram / desistiram devido ao não cumprimento de algumas regras e / ou achando que é improvável que tenham sucesso ou que isso seja muito complicado. Aqui depende se você pode, a partir dos dados que você avaliou, suas chances se eles continuaram. Se uma suposição de MAR pode ser boa, caso contrário, você terá uma situação MNAR difícil.

O que fazer com o MNAR é difícil. Assumir que esses casos não tiveram sucesso pode ser um pouco extremo (ou muito apropriado, afinal, eles não tiveram sucesso). Ou impute ao MAR e tente tornar esses casos menos bem-sucedidos até atingir 0% e contemplar esse intervalo de valores.

Björn
fonte
De fato. No começo, eu acreditava que os dados eram MNAR. No entanto, acho que Maarten está certo. Só que me deixou um pouco mais confuso sobre o que fazer com os zeros estruturais.
EJ16