Regressão múltipla com variável preditora ausente

Suponha que recebamos um conjunto de dados da forma e . É-nos dada a tarefa de prever base nos valores de . Estimamos duas regressões em que: $(y,x_{1},x_{2},\cdots, x_{n})$ $(y,x_{1},x_{2},\cdots, x_{n-1})$ $y$ $x$

\begin{aligned} (1) & y & = f_{1 1} (x_{1 1}, \dots, x_{n - 1 1}, x_{n}) \\ 2) & y & = f_{2} (x_{1 1}, \dots, x_{n - 1 1}) \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

Também estimamos uma regressão que prediz valores de base em valores de , ou seja: $x_{n}$ $(x_{1},\cdots, x_{n-1})$

\begin{matrix} (3) & x_{n} = f_{3} (x_{1 1}, \dots, x_{n - 1 1}) \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

Suponha que agora recebemos valores de , então teríamos dois métodos diferentes para prever : $(x_{1},\cdots, x_{n-1})$ $y$

\begin{aligned} 4) & y & = f_{1 1} (x_{1 1}, \dots, x_{n - 1 1}, f_{3} (x_{1 1}, \dots, x_{n - 1 1})) \\ (5) & y & = f_{2} (x_{1 1}, \dots, x_{n - 1 1}) \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

Qual seria o melhor em geral?

Estou supondo que a primeira equação seria melhor porque utiliza informações das duas formas de pontos de dados, enquanto a segunda equação utiliza informações apenas de pontos de dados que possuem valores preditores . Meu treinamento em estatística é limitado e, portanto, gostaria de procurar alguns conselhos profissionais. $n-1$

Além disso, em geral, qual é a melhor abordagem para dados com informações incompletas? Em outras palavras, como podemos extrair o máximo de informações de dados que não possuem valores em todas as dimensões? $n$

regression multiple-regression missing-data multicollinearity multiple-imputation Xiaowen Li
fonte

Estimar com dados reais vs estimar com estimativas - você decide :) #

21412 PhD

Realmente é assim tão simples?

Xiaowen Li

A resposta pode ser, depende. Quantos dados estão faltando? Quantos dados você tem no geral? Quantos preditores você tem?

Joel W.

+1, acho que essa é uma pergunta realmente interessante e claramente definida. No entanto, mais informações nos ajudarão a refletir sobre essa situação.

$x_n$ $y$ $(1)$ $(2)$ $x_n$ $y$ $(1)$

$(x_1, \cdots, x_{n-1})$ $x_n$ $x_n$ $(1)$ $(2)$

$(4)$ $(1)$ $(2)$ $(4)$

$(1)$ $y$ $x_n$ $(3)$ $(4)$ $(3)$ $(4)$ $n-1$ $(2)$

$(2)$ imputação múltipla .

- Reinstate Monica
fonte

x_{n}

$x_n$

OK, eu pensei que isso era apenas para entender a regressão. Eu examinaria várias imputações.

gung - Restabelece Monica

r^{2}

$r^2$

Obrigado novamente por suas discussões abstratas sobre regressões. As estatísticas podem ser maravilhosamente intrigantes se a considerarmos como um método para encontrar a verdade. Eu vou olhar para ele mais uma vez que eu sou feito com o meu conjunto de dados :)

Xiaowen Li

Você deve verificar a imputação fracionária paramétrica. Este é um trabalho realizado por Jae Kwang Kim, no Estado de Iowa, que pode ser perfeito para essa situação. Veja biomet.oxfordjournals.org/content/98/1/119.abstract

StatsStudent

Regressão múltipla com variável preditora ausente

Respostas: