Suponha que eu tenha uma variável leptocúrtica que gostaria de transformar em normalidade. Que transformações podem realizar essa tarefa? Estou ciente de que a transformação de dados nem sempre pode ser desejável, mas como uma atividade acadêmica, suponha que eu queira "martelar" os dados na normalidade. Além disso, como você pode ver no gráfico, todos os valores são estritamente positivos.
Eu tentei uma variedade de transformações (praticamente qualquer coisa que eu já usei antes, incluindo , etc.), mas nenhum deles funciona particularmente bem. Existem transformações bem conhecidas para tornar as distribuições leptocúrticas mais normais?
Veja o exemplo de plot normal de QQ abaixo:
Respostas:
Eu uso distribuições de cauda longa Lambert W x F para descrever e transformar dados leptokurtic. Veja (meus) posts a seguir para obter mais detalhes e referências:
Aqui está um exemplo reproduzível usando o pacote LambertW R.
yy
Agora, voltando à sua pergunta: como tornar esses dados leptocúrticos normais novamente? Bem, podemos estimar os parâmetros da distribuição usando o MLE (ou para métodos de uso de momentos
IGMM()
),W_delta()
Voila!
fonte
Embora a transformação da raiz do cubo não tenha funcionado bem, ela resulta na raiz quadrada e a raiz mais obscura de três quartos funciona bem.
Aqui estava o gráfico de densidade original do kernel correspondente ao gráfico QQ da variável leptokurtic na pergunta original:
Depois de aplicar a transformação de raiz quadrada aos desvios, o gráfico QQ fica assim:
Melhor, mas pode estar mais perto.
Martelando um pouco mais, aplicar a transformação raiz de três quartos aos desvios fornece:
E a densidade final do kernel dessa variável transformada se parece com isso:
Parece perto de mim.
fonte
Em muitos casos, pode simplesmente não haver transformação monotônica de forma simples que produza um resultado quase normal.
Por exemplo, imagine que temos uma distribuição que é uma mistura finita de distribuições lognormal de vários parâmetros. Uma transformação de log transforma qualquer componente da mistura em normalidade, mas a mistura de normais nos dados transformados deixa você com algo que não é normal.
Ou pode haver uma transformação relativamente agradável, mas não de uma das formas que você pensaria em tentar - se você não souber a distribuição dos dados, poderá não encontrá-lo. Por exemplo, se os dados foram distribuídos por gama, você nem encontrará a transformação exata para a normalidade (o que certamente existe), a menos que eu lhe diga exatamente qual é a distribuição (embora você possa encontrar a transformação de raiz de cubo que neste maiúsculas e minúsculas o tornariam bem próximo do normal, desde que o parâmetro de forma não seja muito pequeno).
Existem inúmeras maneiras pelas quais os dados podem parecer razoavelmente passíveis de serem transformados, mas que não ficam muito bem em nenhuma lista de transformações óbvias.
Se você pode nos dar acesso aos dados, pode ser que possamos identificar uma transformação que está bem - ou podemos mostrar por que você não encontrou uma.
Apenas pela impressão visual, parece uma mistura de duas normais com escalas diferentes. Há apenas uma leve sugestão de assimetria, que você pode facilmente observar por acaso. Aqui está um exemplo de amostra de uma mistura de duas normais com média comum - como você vê, parece um pouco com o seu gráfico (mas outras amostras podem parecer mais pesadas ou mais leves) - nesse tamanho de amostra, há muita variação na ordem estatísticas fora de 1 sd em ambos os lados da média).
De fato, aqui estão as suas e as minhas sobrepostas:
fonte