Será que na padronização a variação é conhecida, enquanto na estudantilização não é conhecida e, portanto, estimada? Obrigado.
standardization
58485362
fonte
fonte
Respostas:
Uma breve recapitulação. Dado um modelo , onde X é N × p , β = ( X ' x ) - 1 X ' Y e Y = X P = X ( X ' X ) - 1 X ' y = H y , onde H = X ( X ′ Xy=Xβ+ε X n×p β^= ( X′X)- 1X′y y^= Xβ^= X( X′X)- 1X′y= Hy é a "matriz do chapéu". Os resíduos são
de e = y - y = y - H y = ( I - H ) y
A variância da população σ 2 é desconhecida e pode ser estimado por H S E , o erro médio quadrático.H= X( X′X)- 1X′
Os resíduos semi-estudados são definidos como mas, uma vez que a variância dos resíduos depende tantoσ2eX, a sua variância estimada é:V(ei)=HSE(1-hii) ondehiié oi-ésimo elemento diagonal da matriz do chapéu.
Os resíduos padronizados , também chamados de resíduos estudados internamente , são:
No entanto, o único e M S E não são independentes, de modo r i não podem ter uma T distribuição. O procedimento é, em seguida, para eliminar o i th observação, encaixar a função de regressão para as restantes n - 1 observações, e obter novas y s' que podem ser representados por Y i ( i ) . A diferença: d i = y i - y i ( i ) é denominadoeEu MSE rEu t Eu n - 1 y^ y^i ( i )
Veja Kutner et al., Modelos Estatísticos Lineares Aplicados , Capítulo 10.
Edit: Devo dizer que a resposta por rpierce é perfeita. Eu pensei que o PO fosse sobre resíduos padronizados e estudados (e dividir pelo desvio padrão da população para obter resíduos padronizados parecia estranho para mim, é claro), mas eu estava errado. Espero que minha resposta possa ajudar alguém, mesmo que o AT.
fonte
No entanto, parece que existem algumas diferenças terminológicas entre os campos (consulte os comentários nesta resposta). Portanto, deve-se proceder com cautela ao fazer essas distinções. Além disso, as pontuações estudantis raramente são chamadas assim e normalmente se vê valores 'estudados' no contexto da regressão. O @Sergio fornece detalhes sobre esses tipos de resíduos excluídos por estudantes em sua resposta.
fonte
Estou muito atrasado em responder a esta pergunta !!. Mas não consegui encontrar a resposta em linguagem muito simples, uma tentativa tão humilde de responder.
Por que fazemos padronização? Imagine que você tem dois modelos: um prevê a loucura a partir do tempo gasto no estudo de estatísticas, enquanto outro prediz log (loucura) com a quantidade de tempo nas estatísticas.
seria difícil entender que os resíduos estão em unidades diferentes. Então, nós os padronizamos. (Teoria semelhante ao escore Z)
Resíduos padronizados: - Quando os resíduos são divididos por uma estimativa do desvio padrão. Em geral, se o valor absoluto> 3, é motivo de preocupação.
Usamos isso para investigar valores discrepantes no modelo.
Residual Studentizado: Usamos isso para estudar a estabilidade do modelo.
Processo é simples. Removemos o caso de teste individual do modelo e descobrimos o novo valor previsto. A diferença entre o novo valor e o valor observado original pode ser padronizada dividindo-se o erro padrão. esse valor é Residualizado Studentizado
Para obter mais informações sobre como descobrir estática usando R - http://www.statisticshell.com/html/dsur.html
fonte
A Wikipedia tem uma boa visão geral em https://en.wikipedia.org/wiki/Normalization_(statistics) :
fonte