Tendo lido sobre resíduos estudantis, não entendo como a ideia de diferentes variações residuais depende de certos valores de um preditor (como está implícito no conceito de resíduos estudantilizados) não é inerentemente conflitante com a suposição de homoscedasticidade em modelos de regressão linear com uma única variável preditora.
Diz no meu livro que a suposição de homoscedasticidade significa que a variação de (variável dependente) condicional em (uma certa realização da variável preditora independente) é constante no intervalo de valores desse preditor. Essa variação condicional, diz, também é igual à variação condicional da variável residual para um dado . Para mim, isso é uma afirmação no nível da população. Juntos, isso seria:
Posteriormente, o livro trata da detecção de outliers na variável dependente e sugere o uso de resíduos padronizados e estudados. Um resíduo padronizado é um resíduo individual dividido pelo desvio padrão estimado da variável residual na população. No caso do resíduo padronizado, cada resíduo é padronizado usando o mesmo valor constante se a homoscedasticidade puder ser assumida:
.
No entanto, no próximo parágrafo, o resíduo estudantilizado é introduzido. O livro diz: "Pode ser demonstrado que a precisão da estimativa dos resíduos aumenta com a distância de da sua média . No caso do resíduo estudantilizado, os resíduos não são divididos pelo erro padrão estimado global, mas pelo desvio padrão estimado dos resíduos no local. Este desvio padrão pode ser obtido a partir desta fórmula:
com sendo a pontuação de alavancagem de um (neste caso simples: singular) . Portanto, parece-me que, nesse caso, os resíduos não são todos divididos pelo mesmo valor constante (como no caso do residual padronizado), mas agora existe uma distribuição de erros padrão residuais que dependem dos valores de alavancagem. Esses valores de alavancagem são maiores nos extremos da variável preditora, conforme explicado em outras perguntas neste site. Na Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ), diz:
Na análise de regressão, a distinção entre erros e resíduos é sutil e importante, e leva ao conceito de resíduos estudados. Dada uma função não observável que relaciona a variável independente à variável dependente - digamos, uma linha - os desvios das observações da variável dependente dessa função são os erros não observáveis. Se alguém executa uma regressão em alguns dados, os desvios das observações da variável dependente da função ajustada são os resíduos. [...] No entanto, devido ao comportamento do processo de regressão, as distribuições de resíduos em diferentes pontos de dados (da variável de entrada) podem variar mesmo que os próprios erros sejam distribuídos de forma idêntica. Concretamente, em uma regressão linear em que os erros são distribuídos de forma idêntica, a variabilidade dos resíduos das entradas no meio do domínio será maior que a variabilidade dos resíduos nas extremidades do domínio [citação necessário]: regressões lineares ajustam os pontos de extremidade melhor que o meio. Isso também se reflete nas funções de influência de vários pontos de dados nos coeficientes de regressão: os pontos de extremidade têm mais influência.
Embora isso faça sentido para mim intuitivamente, não entendo bem como isso não contradiz a suposição de homoscedasticidade. Isso ocorre porque no nível da população a variação do erro pode ser igual para todos os níveis de mas quando estimamos essa variação de erro ajustando uma linha de regressão (para que possamos usar os resíduos como estimativas dos erros no nível da população), criamos automaticamente e artificialmente uma distribuição de desvios padrão residuais condicionais em em vez de ter esse desvio padrão residual igual ao valor singular de cada resíduo? Então isso significaria que o resíduo padronizado é realmente realmente útil no nível populacional (não observável), certo? Porque para uma determinada amostra o residual padronizado pode impossivelmente ser um estimador preciso para todos os valores que estão longe de simplesmente devido à maneira como o modelo de regressão é ajustado?
No entanto, se for esse o caso, não entendo a recomendação que li em muitos lugares para testar a homocedasticidade, plotando os resíduos estudados contra a variável preditora e testando se a variação dos resíduos será igual em todos os níveis de . Se em uma linha de regressão ajustada, a variação dos resíduos pode ser diferente para diferentes níveis de (como eu acho que o conceito de resíduo estudantilizado e que trecho da Wikipedia implica) como faz sentido que todo mundo recomende testar a igualdade de variações residuais entre usando os gráficos de dispersão de resíduos estudantis em relação ao nível do preditor ? Alguém pode apontar quais erros estou cometendo aqui?
Misturo valores residuais e de erro ou níveis de população e amostra? Eu tenho procurado em todos os lugares e não consegui encontrar uma resposta satisfatória que discutisse por que não se trata de um conflito (ou pelo menos nenhum que eu entendesse). Muito obrigado antecipadamente!