Regressão múltipla com variável preditora ausente

9

Suponha que recebamos um conjunto de dados da forma e ( y , x 1 , x 2 , , x n - 1 ) . É-nos dada a tarefa de prever y com base nos valores de x . Estimamos duas regressões em que: y(y,x1 1,x2,,xn)(y,x1 1,x2,,xn-1 1)yx

(1)y=f1 1(x1 1,,xn-1 1,xn)2)y=f2(x1 1,,xn-1 1)

Também estimamos uma regressão que prediz valores de base em valores de ( x 1 , , x n - 1 ) , ou seja: x n = f 3 ( x 1 , , x n - 1 )xn(x1 1,,xn-1 1)

(3)xn=f3(x1 1,,xn-1 1)

Suponha que agora recebemos valores de , então teríamos dois métodos diferentes para prever y :(x1 1,,xn-1 1)y

4)y=f1 1(x1 1,,xn-1 1,f3(x1 1,,xn-1 1))(5)y=f2(x1 1,,xn-1 1)

Qual seria o melhor em geral?

Estou supondo que a primeira equação seria melhor porque utiliza informações das duas formas de pontos de dados, enquanto a segunda equação utiliza informações apenas de pontos de dados que possuem valores preditores . Meu treinamento em estatística é limitado e, portanto, gostaria de procurar alguns conselhos profissionais.n-1 1

Além disso, em geral, qual é a melhor abordagem para dados com informações incompletas? Em outras palavras, como podemos extrair o máximo de informações de dados que não possuem valores em todas as dimensões?n

Xiaowen Li
fonte
Estimar com dados reais vs estimar com estimativas - você decide :) #
21412 PhD
Realmente é assim tão simples?
Xiaowen Li
A resposta pode ser, depende. Quantos dados estão faltando? Quantos dados você tem no geral? Quantos preditores você tem?
Joel W.

Respostas:

6

+1, acho que essa é uma pergunta realmente interessante e claramente definida. No entanto, mais informações nos ajudarão a refletir sobre essa situação.

xny(1 1)(2)xny(1 1)

(x1 1,,xn-1 1)xnxn(1 1)(2)

(4)(1 1)(2)(4)

(1 1)yxn(3)(4)(3)(4)n-1 1(2)

(2)imputação múltipla .

- Reinstate Monica
fonte
xn
11
OK, eu pensei que isso era apenas para entender a regressão. Eu examinaria várias imputações.
gung - Restabelece Monica
r2
Obrigado novamente por suas discussões abstratas sobre regressões. As estatísticas podem ser maravilhosamente intrigantes se a considerarmos como um método para encontrar a verdade. Eu vou olhar para ele mais uma vez que eu sou feito com o meu conjunto de dados :)
Xiaowen Li
Você deve verificar a imputação fracionária paramétrica. Este é um trabalho realizado por Jae Kwang Kim, no Estado de Iowa, que pode ser perfeito para essa situação. Veja biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent