Quando é uma boa ideia usar apenas a média para imputação?

9

Suponha que tenhamos um teste de conjunto de dados :

1
8
12
14
.
.
19

Os . denota falta valores. Quando seria melhor usar a média dos valores não ausentes para imputá-los, em vez de assumir que os dados provêm de uma distribuição normal?

thoms
fonte

Respostas:

7

Don Rubin escreveu um artigo influente que prova que não existe um método único de imputação que produza inferências imparciais (onde "imputação única" significa a imputação de apenas um valor para uma observação ausente). No entanto, no mesmo artigo, ele apontou que pode ser possível criar várias imputações cuja média é uma estimativa imparcial do valor ausente e cujas contribuições para o aumento da variância nas análises subsequentes são uma estimativa razoável da incerteza adicionada devido aos dados. falta.

Este é o artigo dele:

Rubin, DB (1976). Inferência e dados ausentes. Biometrika , 63 (3): 581–592.

E isso é uma atualização: Rubin, DB (1996). Imputação múltipla após 18 anos ou mais. Jornal da Associação Estatística Americana , 91 (434): 473-489.

E esta é uma introdução suave ao tópico da imputação múltipla:

Schafer, JL (1999). Imputação múltipla: uma cartilha. Métodos Estatísticos em Pesquisa Médica , 8: 3–15.

Há uma variedade de pacotes de software estatístico que suportam múltiplas imputações (por exemplo, mouses em R ou gelo em Stata, ou mesmo os recursos de múltiplas imputações integrados da Stata nas versões recentes).

Alexis
fonte
2
Entendo que o argumento de Rubin é que você pode obter uma estimativa pontual imparcial usando uma única imputação cuidadosa, mas os erros padrão estarão errados. No entanto, em muitos casos, a imputação média terá outros problemas, em particular os padrões distorcidos de associação com outras variáveis.
Maarten Buis
@MaartenBuis Obrigado, tentei corrigir isso na minha revisão ... isso funciona?
Alexis19
Na verdade não. O ponto da (múltipla) imputação não é estimar valores ausentes, presume-se que eles sejam perdidos para sempre. No entanto, muitas vezes você sabe outras coisas sobre esses indivíduos / empresas / vacas, ou seja, outras variáveis ​​são observadas para essas observações. Com a imputação (múltipla), você deseja fazer o uso mais eficaz desses dados observados, o que você descartaria se apenas ignorasse todas as observações com pelo menos um valor ausente.
Maarten Buis
1
p
4

Nunca é uma boa idéia fazer isso, mas, se houver muito poucos dados ausentes, eles causarão relativamente pouco dano, serão muito mais fáceis de implementar e, dependendo do seu público final, poderão ser muito mais fáceis de explicar. No entanto, uma audiência relativamente sofisticada pode se opor à imputação média única.

Peter Flom
fonte
1
Pode-se também realizar análises de sensibilidade, digamos, agrupando os resultados com base na imputação média com resultados que incluem imputações mínimas e máximas razoáveis.
Alexis19
1

A pergunta: "Qual método de imputação é a melhor escolha" depende sempre do conjunto de dados que você analisa

Tomando a média, em geral é um método de imputação válido. Como alguém já mencionado, é fácil de explicar para publicações e tem suas vantagens em velocidade de computação.

A média como método de imputação é uma boa escolha para séries que flutuam aleatoriamente em torno de um determinado valor / nível.

Para as séries mostradas, a média não parece apropriada. Como também é apenas uma variável, você não pode usar algoritmos multivariados clássicos, conforme fornecido por ratos, Amelia, VIM.

Você precisaria procurar especialmente algoritmos de séries temporais. Uma abordagem simples, porém, para o seu exemplo, seria uma interpolação linear.

library(imputeTS)   
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)

Aqui está a saída para uma interpolação linear:

[1]  1.00000  8.00000 12.00000 14.00000 15.66667 17.33333 19.00000

Provavelmente, este é um resultado melhor do que a média.

Também existem métodos mais avançados de séries temporais no pacote imputeTS (por mim) ou um no pacote de previsão (por Rob Hyndman)

stats0007
fonte