A regressão pode ser usada para detecção externa. Entendo que existem maneiras de melhorar um modelo de regressão removendo os valores discrepantes. Mas o objetivo principal aqui não é ajustar um modelo de regressão, mas descobrir níveis usando regressão
regression
outliers
user48567
fonte
fonte
Respostas:
Sua melhor opção para usar a regressão para encontrar valores discrepantes é usar a regressão robusta.
A regressão comum pode ser impactada por discrepantes de duas maneiras:
Segundo, uma observação "periférica" no espaço x é uma observação influente - pode puxar o ajuste da linha em sua direção. Se estiver suficientemente longe, a linha passará pelo ponto influente:
No gráfico da esquerda, há um ponto que é bastante influente, e puxa a linha bastante do grande volume de dados. No enredo certo, foi movido ainda mais para longe - e agora a linha passa pelo ponto. Quando o valor x é extremo, à medida que você move esse ponto para cima e para baixo, a linha se move com ele, passando pela média dos outros pontos e pelo único ponto influente.
Um ponto influente que seja perfeitamente consistente com o restante dos dados pode não ser um problema tão grande, mas um ponto que está longe de ser uma linha no restante dos dados fará com que a linha se ajuste a ele, e não aos dados.
Se você observar o gráfico do lado direito, a linha vermelha - a linha de regressão de mínimos quadrados - não mostra o ponto extremo como um valor externo - seu resíduo é 0. Em vez disso, os grandes resíduos da linha de mínimos quadrados estão em a parte principal dos dados!
Isso significa que você pode perder completamente um outlier .
Pior ainda, com regressão múltipla, um erro externo no espaço x pode não parecer particularmente incomum para nenhuma variável x única. Se houver uma possibilidade de tal argumento, é potencialmente uma coisa muito arriscada usar a regressão de mínimos quadrados.
Regressão robusta
Se você ajustar uma linha robusta - em particular uma robusta a outliers influentes - como a linha verde no segundo gráfico -, o outlier terá um resíduo muito grande.
Em que caso, você tem alguma esperança de identificar os outliers - eles vão ser pontos que não são - em certo sentido - perto da linha.
Remoção de outliers
Você certamente pode usar uma regressão robusta para identificar e, assim, remover discrepâncias.
Mas uma vez que você tenha um ajuste de regressão robusto, um que já não seja muito afetado pelos valores discrepantes, você não precisará necessariamente removê-los - você já possui um modelo adequado.
fonte
Sim. Esta resposta e a resposta de Glen_b abordam isso.
Com base no comentário de Roman Lustrik, aqui está uma heurística para encontrar valores extremos usando regressão (linear múltipla).
Deixando de lado esses pontos discrepantes do candidato, podemos repetir todo o exercício novamente com a amostra reduzida. No algoritmo, estamos escolhendo exemplos nos dados que estão influenciando o ajuste da regressão de maneira ruim (que é uma maneira de rotular um exemplo como outlier).
fonte