Qual a diferença entre padronização e estudianização?

21

Será que na padronização a variação é conhecida, enquanto na estudantilização não é conhecida e, portanto, estimada? Obrigado.

58485362
fonte
2
Você pode esclarecer o contexto de sua pergunta. Que tipo de padronização, que tipo de aluno? Para que esses valores estão sendo usados?
22714 russellpierce
3
Se você está perguntando sobre resíduos , a terminologia não é (ahem) padronizada . Autores diferentes usam nomes diferentes para a mesma coisa e, ocasionalmente - e, infelizmente, de maneira mais confusa, o mesmo nome para coisas diferentes. Há o que eu chamo de (i) escalado resíduos ( (y-y^Eu)/s , chamados padronizados resíduos por alguns autores); (ii) resíduos estudantilizados internamente (chamados padronizados por alguns autores / pacotes, estudados por outros); (iii) estudado externamente / estudioso excluídoresíduos
Glen_b -Reinstate Monica

Respostas:

20

Uma breve recapitulação. Dado um modelo , onde X é N × p , β = ( X ' x ) - 1 X ' Y e Y = X P = X ( X ' X ) - 1 X ' y = H y , onde H = X ( X Xy=Xβ+εXn×pβ^=(XX)-1Xyy^=Xβ^=X(XX)-1Xy=Hy é a "matriz do chapéu". Os resíduos são de e = y - y = y - H y = ( I - H ) y A variância da população σ 2 é desconhecida e pode ser estimado por H S E , o erro médio quadrático.H=X(XX)-1X

e=y-y^=y-Hy=(Eu-H)y
σ2MSE

Os resíduos semi-estudados são definidos como mas, uma vez que a variância dos resíduos depende tantoσ2eX, a sua variância estimada é:V(ei)=HSE(1-hii) ondehiié oi-ésimo elemento diagonal da matriz do chapéu.

eEu=eEuMSE
σ2X
V^(eEu)=MSE(1-hEuEu)
hEuEuEu

Os resíduos padronizados , também chamados de resíduos estudados internamente , são:

rEu=eEuMSE(1-hEuEu)

No entanto, o único e M S E não são independentes, de modo r i não podem ter uma T distribuição. O procedimento é, em seguida, para eliminar o i th observação, encaixar a função de regressão para as restantes n - 1 observações, e obter novas y s' que podem ser representados por Y i ( i ) . A diferença: d i = y i - y i ( i ) é denominadoeEuMSErEutEun-1y^y^Eu(Eu)

dEu=yEu-y^Eu(Eu)
residual excluído . Uma expressão equivalente que não requer recomputação é: Denotando os novosXeMSEporX(i)eMSE(i), uma vez que eles não dependem dai-ésima observação, obtemos: ti=di
dEu=eEu1-hEuEu
XMSEX(Eu)MSE(Eu)Eu ati's são chamadosestudantizado(eliminados)resíduos, ouresíduos estudantizado externamente.
tEu=dEuMSE(Eu)1-hEuEu=eEuMSE(Eu)(1-hEuEu)tn-p-1
tEu

Veja Kutner et al., Modelos Estatísticos Lineares Aplicados , Capítulo 10.

Edit: Devo dizer que a resposta por rpierce é perfeita. Eu pensei que o PO fosse sobre resíduos padronizados e estudados (e dividir pelo desvio padrão da população para obter resíduos padronizados parecia estranho para mim, é claro), mas eu estava errado. Espero que minha resposta possa ajudar alguém, mesmo que o AT.

Sergio
fonte
2
... e esta resposta está correta na definição de resíduos estudados de uma equação de regressão. Não há definição de um resíduo padronizado correspondente. A estrutura de regressão parece não se aplicar à pergunta. Mas essa ainda é uma contribuição valiosa; 1
russellpierce
2
@ rpierce, você está certo: assim que eu li "studentization", eu também li "resíduos", mas eles só estavam na minha mente ;-) Desculpe. Eu notei minha supervisão somente após o último clique.
Sergio
9

sσ

No entanto, parece que existem algumas diferenças terminológicas entre os campos (consulte os comentários nesta resposta). Portanto, deve-se proceder com cautela ao fazer essas distinções. Além disso, as pontuações estudantis raramente são chamadas assim e normalmente se vê valores 'estudados' no contexto da regressão. O @Sergio fornece detalhes sobre esses tipos de resíduos excluídos por estudantes em sua resposta.

russellpierce
fonte
2
A Wikipedia acrescenta: "O termo também é usado para a padronização de uma estatística de maior grau por outra estatística do mesmo grau: por exemplo, uma estimativa do terceiro momento central seria padronizada dividindo pelo cubo do desvio padrão da amostra. "
Nick Stauner
2
Eu acho que seria mais seguro dizer que Studentization é a forma de padronização disponível se a variação populacional for desconhecida. Isso assume a forma de um ponto de distinção técnico e terminológico, em vez de uma declaração enganosa sobre o termo mais geral e amplamente usado.
Nick Stauner
2
σ
2
@ Nick Parece uma boa resolução, já que várias autoridades usam amplamente a "padronização", mas nenhuma (AFAIK) usa "studentize" em um sentido tão amplo.
whuber
2
@rpierce O segundo livro (Freedman, Pisani e Purves) existe há cerca de 40 anos, através de cinco edições (praticamente inalteradas), e começou a vida como o texto do curso de introdução às estatísticas da UC Berkeley. Abrange quase todos os campos concebíveis, não apenas a saúde pública. Por outro lado, um de seus pontos fortes é evitar enfatizar distinções pequenas, sem sentido ou excessivamente técnicas, portanto, embora seja um bom guia para as estatísticas em geral, não se pode confiar para resolver questões misteriosas.
whuber
3

Estou muito atrasado em responder a esta pergunta !!. Mas não consegui encontrar a resposta em linguagem muito simples, uma tentativa tão humilde de responder.

Por que fazemos padronização? Imagine que você tem dois modelos: um prevê a loucura a partir do tempo gasto no estudo de estatísticas, enquanto outro prediz log (loucura) com a quantidade de tempo nas estatísticas.

seria difícil entender que os resíduos estão em unidades diferentes. Então, nós os padronizamos. (Teoria semelhante ao escore Z)

Resíduos padronizados: - Quando os resíduos são divididos por uma estimativa do desvio padrão. Em geral, se o valor absoluto> 3, é motivo de preocupação.

Usamos isso para investigar valores discrepantes no modelo.

Residual Studentizado: Usamos isso para estudar a estabilidade do modelo.

Processo é simples. Removemos o caso de teste individual do modelo e descobrimos o novo valor previsto. A diferença entre o novo valor e o valor observado original pode ser padronizada dividindo-se o erro padrão. esse valor é Residualizado Studentizado

Para obter mais informações sobre como descobrir estática usando R - http://www.statisticshell.com/html/dsur.html

NBhoyar
fonte