Observações influentes são aquelas que têm um efeito relativamente grande nas previsões do modelo de regressão.
Pontos de alavancagem são aquelas observações, se houver, feitas em valores extremos ou extremos das variáveis independentes, de modo que a falta de observações vizinhas significa que o modelo de regressão ajustado passará perto dessa observação específica.
Por que a seguinte comparação da Wikipedia
Embora um ponto influente tenha tipicamente alta alavancagem , um ponto alto de alavancagem não é necessariamente um ponto influente .
regression
outliers
leverage
StackExchange for All
fonte
fonte
Respostas:
Imagine qualquer linha de regressão ajustada a alguns dados.
Agora imagine um ponto de dados extra, um pouco distante do corpo principal dos dados, mas que fica em algum lugar ao longo dessa linha de regressão.
Se a linha de regressão fosse reajustada, os coeficientes não mudariam. Por outro lado, excluir o outlier extra não teria influência sobre os coeficientes.
Portanto, um ponto externo ou de alavancagem não terá influência se for perfeitamente consistente com o restante dos dados e o modelo que o restante implica.
Para "linha", leia "plano" ou "hiperplano", se desejado, mas o exemplo mais simples de duas variáveis e um gráfico de dispersão é suficiente aqui.
No entanto, como você gosta de definições - muitas vezes, ao que parece, tendem a ler muito nelas -, eis a minha definição favorita de discrepantes:
"Outliers são valores amostrais que causam surpresa em relação à maioria da amostra" (WN Venables e BD Ripley. 2002. Estatísticas modernas aplicadas com S. New York: Springer, p.119).
Fundamentalmente, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo sob o qual o discrepante não surpreenda, digamos, se os dados realmente são lognormal ou gama, em vez de normais.
PS: Eu não acho que esses pontos de influência necessariamente carecem de observações vizinhas. Por exemplo, eles podem ocorrer em pares.
fonte
É fácil ilustrar como um ponto de alavancagem alto pode não ter influência no caso de um modelo linear simples:
A linha azul é uma linha de regressão baseada em todos os dados; a linha vermelha ignora o ponto no canto superior direito do gráfico.
Esse ponto se encaixa na definição de um ponto de alta alavancagem que você acabou de fornecer, pois está longe do restante dos dados. Por isso, a linha de regressão (a azul) precisa passar perto dela. Mas como sua posição se encaixa amplamente no padrão observado no restante dos dados, o outro modelo o preveria muito bem (isto é, a linha vermelha já passa perto dela em qualquer caso) e, portanto, não é particularmente influente.
Compare isso com o seguinte gráfico de dispersão:
Aqui, o ponto à direita do gráfico ainda é um ponto de alavancagem alto, mas desta vez não se encaixa realmente no padrão observado no restante dos dados. A linha azul (o ajuste linear com base em todos os dados) passa muito perto, mas a linha vermelha não. A inclusão ou exclusão desse ponto altera as estimativas de parâmetros de maneira dramática: ele tem muita influência.
Observe que as definições que você citou e os exemplos que acabei de dar podem parecer implicar que altos pontos de influência / alavancagem são, em certo sentido, "outliers" univariados e que a linha de regressão ajustada passará perto de pontos com a maior influência, mas precisa não seja o caso.
Neste último exemplo, a observação no canto inferior direito tem um efeito (relativamente) grande no ajuste do modelo (visível novamente pela diferença entre as linhas vermelha e azul), mas ainda parece estar longe da linha de regressão sendo indetectável em distribuições univariadas (representadas aqui pelos "tapetes" ao longo dos eixos).
fonte