Sob uma definição clássica de um outlier como um ponto de dados fora do IQR de 1,5 * do quartil superior ou inferior, existe uma suposição de uma distribuição não distorcida. Para distribuições assimétricas (Exponencial, Poisson, Geométrica, etc.), é a melhor maneira de detectar um outlier analisando uma transformação da função original?
Por exemplo, distribuições governadas livremente por uma distribuição exponencial podem ser transformadas com uma função de log - em que ponto é aceitável procurar outliers com base na mesma definição de IQR?
1.5*IQR
definição de um outlier não é universalmente aceita. Tente descarregar sua pergunta e expandir o problema que você está tentando resolver.Respostas:
Essa é a regra para identificar pontos fora das extremidades dos bigodes em um boxplot. O próprio Tukey, sem dúvida, se oporia a chamá-los de forasteiros nessa base (ele não considerava necessariamente pontos fora desses limites como forçados). Estes prefeririam ser pontos que - se se esperava que seus dados fossem de uma distribuição um pouco semelhante a uma distribuição normal - poderiam ser submetidos a uma investigação mais aprofundada (como verificar se você não transpôs dois dígitos, por exemplo) - no máximo poderiam ser discrepantes em potencial . Como Nick Cox aponta nos comentários sob esta resposta , uma parte de muitos desses pontos seria tomada mais como um indicador de que uma reexpressão pode ser adequada do que uma indicação da necessidade de considerar os pontos como outliers.
Eu assumi por "não distorcido" você quer dizer simétrico. Então, a suposição é mais do que apenas isso. Uma distribuição de cauda pesada, mas simétrica, pode ter muitos pontos fora dos limites dessa regra.
Isso depende do que constitui um erro externo para seus propósitos. Não existe uma definição única que seja adequada para cada finalidade - na verdade, geralmente você provavelmente está melhor fazendo outras coisas que (digamos) escolhendo valores discrepantes e omitindo-os.
Para o exponencial ou geométrico, você pode fazer um cálculo semelhante ao de um boxplot, mas que identificaria uma fração semelhante apenas na cauda direita (você não terá pontos de extremidade inferior identificados em um exponencial ou geométrico) † .. ou você pode fazer outra coisa.†
Em amostras grandes, o boxplot marca cerca de 0,35% dos pontos em cada extremidade, ou cerca de 0,7% no total. Para um exponencial, você pode marcar alguns múltiplos da mediana, por exemplo. Se você deseja marcar aproximadamente 0,7% dos pontos no total para um exponencial real, isso sugere pontos de marcação além de cerca de 7,1 vezes a mediana.†
Pontos de marcação acima de 7,1 vezes a mediana para n = 1000 geralmente atingem entre 0,4% e 1,1% dos valores:
Isso depende totalmente do que você quer dizer com "aceitável". Observe, no entanto, que -
i) a distribuição resultante não é realmente simétrica, mas distintamente inclinada para a esquerda.
Como resultado, você geralmente marcará apenas pontos no lado esquerdo (ou seja, próximo a zero, onde você espera que os valores exponenciais sejam de qualquer maneira), e não no lado direito (onde podem estar os "outliers"), a menos que sejam realmente extremo.
ii) a adequação de tal regra será fortemente dependente do que você está fazendo.
Se você está preocupado com o estranho valor que afeta sua inferência, em geral, provavelmente é melhor usar procedimentos robustos do que formalmente identificar discrepantes.
Se você realmente deseja usar uma regra com base normal para dados exponenciais ou Poisson transformados, eu sugiro pelo menos aplicá-la à raiz quadrada ‡ para um Poisson (desde que a média não seja muito pequena, deve ser mais ou menos normal) e cubar a raiz ou mesmo a quarta raiz para o exponencial (e talvez, por extensão, o geométrico).‡
ou talvez √‡ , como natransformação AnscombeX+ 38-----√
Por exemplo, em amostras grandes, a abordagem da raiz do cubo tenderá a marcar pontos apenas na cauda superior (aproximadamente na mesma taxa em que os marca na cauda superior para um normal) e a abordagem da quarta raiz marcará pontos nas duas caudas (um pouco mais na cauda inferior, no total, algo próximo a 40% da taxa que o faz normalmente). Das possibilidades, a raiz do cubo faz mais sentido para mim do que as outras duas, mas eu não recomendaria necessariamente usar isso como uma regra rígida e rápida.
fonte
Eu responderei suas perguntas na ordem oposta em que você as perguntou, de modo que a exposição prossiga do específico para o geral.
Primeiro, vamos considerar uma situação em que você pode supor que, exceto por uma minoria de outliers, a maior parte dos seus dados pode ser bem descrita por uma distribuição conhecida (no seu caso, a exponencial).
O estimador usual de MLE dos parâmetros é [0, p 506]:
e
Aqui está um exemplo em
R
:Uma alternativa ao MLE bruto é: (a) encontrar os outliers usando uma regra robusta de identificação de outlier , (b) separá-los como dados espúrios e (c) calcular o MLE na parte não espúria da amostra.
A mais conhecida dessas regras robustas de identificação externa é a regra med / mad proposta por Hampel [3], que a atribuiu a Gauss (ilustrei essa regra aqui ). Na regra med / mad, o limite de rejeição é baseado na suposição de que as observações genuínas em sua amostra são bem aproximadas por uma distribuição normal.
Obviamente, se você tiver informações extras (como saber que a distribuição das observações genuínas é bem aproximada por uma distribuição de poisson, como neste exemplo ), não há nada para impedir a transformação de seus dados e o uso da regra de rejeição de linha de base discrepante (a med / mad) mas isso me parece um pouco estranho ao transformar os dados para preservar o que é afinal uma regra ad-hoc.
Parece-me muito mais lógico preservar os dados, mas adaptar as regras de rejeição. Então, você ainda usaria o procedimento de três etapas que descrevi no primeiro link acima, mas com o limite de rejeição adaptado à distribuição, você suspeita que boa parte dos dados tenha. Abaixo, dou a regra da rejeição em situações em que as observações genuínas são bem ajustadas por uma distribuição exponencial. Nesse caso, você pode construir bons limites de rejeição usando a seguinte regra:
2) rejeitar como espúrias todas as observações fora de [2, p 188]
(o fator 9 na regra acima é obtido como o 7.1 na resposta de Glen_b acima, mas usando um ponto de corte mais alto. O fator (1 + 2 / n) é um pequeno fator de correção de amostra que foi derivado por simulações em [2]. Para tamanhos de amostra grandes o suficiente, é essencialmente igual a 1).
Usando esta regra nos exemplos anteriores, você obteria:
No terceiro exemplo:
Agora, para o caso geral em que você não possui uma boa distribuição de candidatos para se ajustar à maior parte de suas observações, além de saber que uma distribuição simétrica não funciona, você pode usar o boxplot ajustado [4]. Essa é uma generalização do boxplot que leva em consideração uma medida (assimétrica e não-paramétrica e robusta) de seus dados (de modo que, quando a maior parte dos dados é simétrica, cai no boxplot usual). Você também pode verificar esta resposta para obter uma ilustração.
fonte
Primeiro, eu questionaria a definição, clássica ou não. Um "outlier" é um ponto surpreendente. Usar qualquer regra específica (mesmo para distribuições simétricas) é uma ideia falha, especialmente nos dias de hoje, quando existem tantos conjuntos de dados enormes. Em um conjunto de dados de (digamos) um milhão de observações (não tão grandes assim, em alguns campos), haverá muitos casos além do limite de 1,5 IQR que você cita, mesmo que a distribuição seja perfeitamente normal.
Segundo, sugiro procurar discrepantes nos dados originais. Quase sempre será mais intuitivo. Por exemplo, com dados de renda, é bastante comum fazer registros. Mas mesmo aqui, eu procuraria discrepâncias na escala original (dólares ou euros ou o que seja), porque sentimos melhor esses números. (Se você usar logs, sugiro a base de log 10, pelo menos para detecção externa, porque é pelo menos um pouco intuitiva).
Terceiro, ao procurar discrepantes, cuidado com o mascaramento.
Por fim, atualmente estou pesquisando o algoritmo de "pesquisa direta" proposto por Atkinson e Riani para vários tipos de dados e problemas. Isso parece muito promissor.
fonte