Primeiro, devo declarar que procurei neste site a resposta. Também não encontrei uma pergunta que respondesse à minha pergunta ou meu nível de conhecimento é tão baixo que não percebi que já tinha lido a resposta.
Estou estudando para o exame de estatística da AP. Eu tenho que aprender regressão linear e um dos tópicos é resíduos. Eu tenho uma cópia de Introdução à estatística e análise de dados na página 253 que ela declara.
Pontos incomuns em um conjunto de dados bivariados são aqueles que se afastam da maioria dos outros pontos no gráfico de dispersão na direção ou na direção
Uma observação é potencialmente uma observação influente se tiver um valor muito distante do restante dos dados (separado do restante na direção ). Para determinar se a observação é de fato influente, avaliamos se a remoção dessa observação tem um grande impacto no valor da inclinação ou na interceptação da linha do quadrado mínimo.
Uma observação é uma excepção se tiver um resíduo grande. A observação externa se distancia da linha menos quadrada na direção .
Stattreck.com declara quatro métodos para determinar um outlier de resíduos:
Os pontos de dados que divergem em grande parte do padrão geral são chamados de discrepantes. Há quatro maneiras pelas quais um ponto de dados pode ser considerado um erro externo.
- Poderia ter um valor X extremo em comparação com outros pontos de dados.
- Poderia ter um valor extremo de Y em comparação com outros pontos de dados.
- Poderia ter valores extremos de X e Y.
- Pode estar distante do restante dos dados, mesmo sem valores extremos de X ou Y.
Essas duas fontes parecem entrar em conflito. Alguém poderia ajudar a esclarecer minha confusão. Além disso, como se define extremo. O AP Statistics usa a regra se o ponto de dados estiver fora de (Q1-1.5IQR, Q3 + 1.5IQR) do que é um erro externo. Não sei como aplicar isso a partir de apenas um gráfico dos resíduos.
fonte
Eu concordo com o John. Aqui estão mais alguns pontos. Uma observação influente é (estritamente) aquela que influencia as estimativas de parâmetros. Um pequeno desvio no valor Y gera uma grande alteração nos parâmetros beta estimados. Na regressão simples de 1 variável contra outra, variáveis influentes são precisamente aquelas cujo valor X está distante da média dos X's. Na regressão múltipla (várias variáveis independentes), a situação é mais complexa. Você deve observar a diagonal da chamada matriz de chapéu , e o software de regressão fornecerá isso a você. Google "alavancagem".X( X′X)- 1X′
A influência é uma função dos pontos de design (os valores X), como afirma o seu livro.
Observe que influência é poder. Em um experimento projetado, você deseja valores X influentes, supondo que você possa medir o valor Y correspondente com precisão. Você ganha mais dinheiro por isso.
Para mim, um erro externo é basicamente um erro - ou seja, uma observação que não segue o mesmo modelo que o restante dos dados. Isso pode ocorrer devido a um erro de coleta de dados ou porque esse assunto em particular era incomum de alguma forma.
Não gosto muito da definição de stattrek de outlier por várias razões. A regressão não é simétrica em Y e X. Y é modelado como uma variável aleatória e os X são assumidos como fixos e conhecidos. Estranho nos Y's não é o mesmo que estranhos nos X's. Influência e outliership significam coisas diferentes. A influência, na regressão múltipla, não é detectada observando parcelas residuais. Uma boa descrição de valores discrepantes e influência para o caso de variável única deve configurá-lo para entender também o caso múltiplo.
Não gosto mais do seu livro pelas razões apontadas por John.
Bottom line, outliers influentes são perigosos. Eles precisam ser examinados de perto e tratados.
fonte