Tratamento de outliers produzidos por Kurtosis

10

Fiquei me perguntando se alguém poderia me ajudar com informações sobre curtose (ou seja, existe alguma maneira de transformar seus dados para reduzi-los?)

Eu tenho um conjunto de dados de questionário com um grande número de casos e variáveis. Para algumas das minhas variáveis, os dados mostram valores de curtose bastante altos (isto é, uma distribuição leptocúrtica), que é derivada do fato de que muitos dos participantes deram exatamente a mesma pontuação para a variável. Eu tenho um tamanho de amostra particularmente grande; portanto, de acordo com o teorema do limite central, as violações da normalidade ainda devem ser boas.

O problema, no entanto, é o fato de que os níveis particularmente altos de curtose estão produzindo vários discrepâncias univariadas no meu conjunto de dados. Assim, mesmo que eu transfira os dados ou remova / ajuste os valores extremos, os altos níveis de curtose significam que as próximas pontuações mais extremas se tornam automaticamente extremos. Eu pretendo usar (análise de função discriminante). Diz-se que o DFA é robusto ao afastamento da normalidade, desde que a violação seja causada por distorção e não por discrepâncias. Além disso, também é dito que o DFA é particularmente influenciado por discrepantes nos dados (Tabachnick & Fidel).

Alguma idéia de como contornar isso? (Meu pensamento inicial era uma maneira de controlar a curtose, mas não é uma coisa boa se a maioria da minha amostra está dando classificações semelhantes?)

Kyle Brown
fonte

Respostas:

8

A maneira óbvia de "bom senso" para resolver seu problema é:

  1. Obtenha a conclusão usando o conjunto de dados completo. ou seja, quais resultados você declarará ignorar cálculos intermediários?
  2. Obtenha a conclusão usando o conjunto de dados com os "outliers" removidos. ou seja, quais resultados você declarará ignorar cálculos intermediários?
  3. Compare o passo 2 com o passo 1
  4. Se não houver diferença, esqueça que você teve um problema. Os valores extremos são irrelevantes para a sua conclusão . Os discrepantes podem influenciar alguma outra conclusão que possa ter sido extraída usando esses dados, mas isso é irrelevante para o seu trabalho. É problema de outra pessoa.
  5. Se houver uma diferença, então você tem basicamente uma questão de "confiança". Esses "discrepantes" são reais no sentido de que eles realmente representam algo sobre sua análise? Ou os "discrepantes" são ruins porque vêm de alguma "fonte contaminada"?

Na situação 5, você basicamente tem um caso do "modelo" que você usou para descrever a "população" está incompleto - há detalhes que foram deixados não especificados, mas que são importantes para as conclusões. Há duas maneiras de resolver isso, correspondendo aos dois cenários de "confiança":

  1. Adicione alguma estrutura adicional ao seu modelo para que descreva os "outliers". Portanto, em vez de , considere .P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. Crie um "modelo-modelo", um para as observações "boas" e outro para as observações "ruins". Então, em vez de você usaria , onde u é a probabilidade de obter uma observação "boa" em sua amostra, e G e B representam os modelos para os dados "bom" e "ruim".P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

A maioria dos procedimentos "padrão" pode ser mostrada como aproximações para esse tipo de modelo. O mais óbvio é considerando o caso 1, onde a variação foi assumida constante entre as observações. Ao relaxar essa suposição em uma distribuição, você obtém uma distribuição de mistura. Essa é a conexão entre as distribuições "normal" e "t". O normal tem variação fixa, enquanto o "t" se mistura com diferentes variações, a quantidade de "mistura" depende dos graus de liberdade. Alto DF significa baixa mistura (valores discrepantes são improváveis), baixo DF significa alta mistura (discrepâncias são prováveis). De fato, você pode considerar o caso 2 como um caso especial do caso 1, onde as observações "boas" são normais e as observações "ruins" são Cauchy (t com 1 DF).

probabilityislogic
fonte
Que resposta excelente, @probabilityislogic
Peter Flom - Restabelece Monica
Apenas uma observação esclarecedora: a classificação ideal requer conhecimento das verdadeiras distribuições multivariadas. Se você pode estimar bem essas distribuições, a função de classificação resultante é quase ideal. Os valores extremos (como indicado pela curtose) são realmente problemáticos porque não há poucos dados na região com os quais se possa estimar a densidade. Com dados multivariados, a maldição da dimensionalidade também contribui para esse problema.
precisa