Gostaria de saber se existe uma maneira simples de detectar discrepâncias.
Para um dos meus projetos, que era basicamente uma correlação entre o número de vezes que os participantes participam de atividade física em uma semana e o número de vezes que comem fora de casa (fast food) em uma semana, desenhei um gráfico de dispersão e literalmente removi o pontos de dados que eram extremos. (O gráfico de dispersão mostrou uma correlação negativa.)
Isso foi baseado no julgamento do valor (com base no gráfico de dispersão em que esses pontos de dados eram claramente extremos). Eu não fiz nenhum teste estatístico.
Eu só estou querendo saber se esta é uma maneira sólida de lidar com valores extremos.
Eu tenho dados de 350 pessoas, então a perda de (digamos) 20 pontos de dados não é uma preocupação para mim.
fonte
Respostas:
Não existe uma maneira simples de remover os valores discrepantes. Os valores discrepantes podem ser de dois tipos:
1) Erros de entrada de dados. Geralmente, são os mais fáceis de detectar e sempre os mais fáceis de lidar. Se você encontrar os dados certos, corrija-os; caso contrário, exclua-o.
2) Dados legítimos que são incomuns. Isso é muito mais complicado. Para dados bivariados como o seu, o outlier pode ser univariado ou bivariado.
a) Univariada. Primeiro, "incomum" depende da distribuição e do tamanho da amostra. Você nos fornece o tamanho da amostra de 350, mas qual é a distribuição? Claramente, isso não é normal, pois é um número inteiro relativamente pequeno. O que é incomum em um Poisson não estaria em um binômio negativo. Eu meio que suspeitava de um relacionamento binomial negativo inflado a zero.
Mas mesmo quando você tem a distribuição, os (possíveis) discrepantes afetarão os parâmetros. Você pode olhar para as distribuições "deixe uma de fora", onde verifica se o ponto de dados q seria um outlier se os dados tivessem todos os pontos, exceto q. Mesmo assim, o que acontece se houver vários discrepantes?
b) Bivariada. É aqui que nenhum valor de variável é incomum em si, mas juntos eles são estranhos. Existe um relatório possivelmente apócrifo de que o censo disse uma vez que havia 20.000 viúvas de 12 anos nos EUA. 12 anos de idade não são incomuns, viúvas também não, mas viúvas de 12 anos são.
Diante de tudo isso, pode ser mais simples relatar uma medida robusta de relacionamento.
fonte
Eu pesquisei bastante sobre outliers, principalmente quando trabalhei na validação de dados de energia em Oak Ridge, de 1978 a 1980. Existem testes formais para outliers univariados para dados normais (por exemplo, teste de Grubbs e teste de proporção de Dixon). Existem testes para outliers multivariados e séries temporais. O livro de Barnett e Lewis sobre "Outliers in Statistical Data" é a Bíblia sobre outliers e cobre quase tudo.
Quando eu estava em Oak Ridge trabalhando na validação de dados, tínhamos grandes conjuntos de dados multivariados. Para outliers univariados, há uma direção para extremos (muito acima da média e muito abaixo da média). Porém, para outliers multivariados, existem muitas direções para procurar outliers. Nossa filosofia era considerar qual é o uso pretendido dos dados. Se você está tentando estimar determinados parâmetros, como uma correlação bivariada ou um coeficiente de regressão, deseja olhar na direção que proporciona o maior efeito no parâmetro de interesse. Naquela época, eu havia lido o artigo não publicado de Mallows sobre funções de influência. O uso de funções de influência para detectar discrepâncias é abordado no livro de análise multivariada da Gnanadesikan. Claro que você também pode encontrar em Barnett e Lewis.
A função de influência para um parâmetro é definida em pontos no espaço multivariado das observações e mede essencialmente a diferença entre a estimativa de parâmetro quando o ponto de dados é incluído em comparação com quando é deixado de fora. Você pode fazer essas estimativas com cada ponto de amostra, mas geralmente pode derivar uma boa forma funcional para a função de influência que fornece informações e computação mais rápida.
Por exemplo, em meu artigo no American Journal of Mathematics and Management Science, em 1982, "A função de influência e sua aplicação na validação de dados", mostro a fórmula analítica para a função de influência na correlação bivariada e que os contornos da influência constante são hipérboles. Portanto, os contornos mostram a direção no plano em que a função de influência aumenta mais rapidamente.
No meu artigo, mostro como aplicamos a função de influência para correlação bivariada com os dados do Formulário 4 da FPC sobre geração e consumo de energia. Há uma clara correlação positiva alta entre os dois e encontramos alguns valores discrepantes que foram altamente influentes na estimativa de correlação. Investigações adicionais mostraram que pelo menos um dos pontos estava errado e conseguimos corrigi-lo.
Mas um ponto importante que sempre menciono ao discutir discrepâncias é que a rejeição automática está errada. O outlier nem sempre é um erro e, às vezes, fornece informações importantes sobre os dados. Dados válidos não devem ser removidos apenas porque não estão em conformidade com a nossa teoria da realidade. Seja difícil ou não, a razão pela qual o erro ocorreu deve sempre ser investigada.
Devo mencionar que esta não é a primeira vez que discrepâncias multivariadas foram discutidas neste site. Uma busca por outliers provavelmente levaria a várias perguntas onde foram discutidos outliers multivariados. Sei que já referenciei meu artigo e esses livros antes e dei links para eles.
Além disso, quando a rejeição discrepante é discutida, muitos de nós neste site recomendamos essa opção, especialmente se for feita com base apenas em um teste estatístico. Peter Huber freqüentemente menciona uma estimativa robusta como uma alternativa à rejeição externa. A idéia é que procedimentos robustos reduzam o peso dos discrepantes, reduzindo seu efeito na estimativa sem a etapa pesada de rejeitá-los e usar um estimador não robusto.
A função de influência foi originalmente desenvolvida por Frank Hampel em sua tese de doutorado no início dos anos 1970 (acho que 1974). Sua idéia era realmente usar funções de influência para identificar estimadores que não eram robustos em relação a valores extremos e ajudar a desenvolver estimadores robustos.
Aqui está um link para uma discussão anterior sobre esse tópico, onde mencionei alguns trabalhos meus sobre a detecção de valores extremos em séries temporais usando funções de influência.
fonte
Outra abordagem simples para lidar com outliers é usar estatísticas não paramétricas. Provavelmente, com o tamanho da amostra, um rho de Spearman funcionaria bem como um índice da correlação. (Observe, no entanto, que as estatísticas não paramétricas de ordem de classificação não ajudam muito em relacionamentos não lineares.)
Se você deseja usar o r de Pearson (uma estatística paramétrica) e se não puder calcular a distância de Cook, use uma regra prática padrão de que qualquer dado aponte para mais de 2,67 desvios padrão (sd) da média , ou 4,67 sd da média é um valor externo ou extremo, respectivamente. Esses são valores de corte típicos para valores extremos e pontos extremos de dados usados em um programa padrão de análise estatística (SPSS).
Só porque um ponto de dados é um outlier não significa que são dados ruins a serem descartados. Você pode calcular sua correlação com e sem pontos extremos e partir daí.
fonte
Você pode tentar a Distância de Cook. Veja o artigo da Wikipedia para sugestões de cortes. Além disso, se você estiver caminhando em direção a algum modelo de regressão, poderá tentar uma regressão robusta.
fonte
Em primeiro lugar, não remova valores atípicos, a menos que tenha certeza de que estão fora do estudo! Eles podem conter algumas informações importantes (variabilidade). Você deve descartá-los se for óbvio que o outlier se deve a dados inseridos ou medidos incorretamente. Se você não conhece o método de amostragem usado para obter seus dados, deve identificar valores atípicos e seus efeitos da seguinte maneira:
Grau de anormalidade: espera-se 5% das observações com resíduos padronizados (eEu∗ )> 2. Se você tiver outros resíduos mais altos, poderá suspeitar de discrepâncias.
Grau de distância da gravidade central no espaço de x:heu eu (alavancagem). Quando algunsheu eu é muito alto, você tem uma observação que pode distorcer seu modelo porque está fora do alcance do seu estudo.
Grau de influência no modelo ajustado: Pontos influentes são aqueles que têm peso suficiente para alterar seu modelo. Então, cofficients do modelo ajustado usando todas as n observações são muito diferentes dos coeficientes do modelo ajustado usando todos os pontos, mas não esta observaçãoEu -º. D CEu= e i ∗2⋅ heu eu/ [(1- heu eu) ⋅ p ]
A distância de Cook ou D de Cook é uma estimativa comumente usada da influência de um ponto de dados. :
Soluções possíveis:
fonte