Suponha que eu tenha uma variável cuja distribuição seja inclinada positivamente em um grau muito alto, de modo que tomar o log não seja suficiente para colocá-lo dentro do intervalo de assimetria para uma distribuição normal. Quais são as minhas opções neste momento? O que posso fazer para transformar a variável em uma distribuição normal?
data-transformation
skewness
histelheim
fonte
fonte
Respostas:
Tente a transformação reta de Box-Cox, conforme Box, GEP e Cox, DR (1964), "An Analysis of Transformations", Jornal da Sociedade Estatística Real, Série B , 26, 211-234. O SAS tem a descrição de sua função de probabilidade de log em Normalizing Transformations , que você pode usar para encontrar o parâmetro ideal , descrito em Atkinson, AC (1985), Plots, Transformations e Regression , Nova York: Oxford University Press.λ
É muito fácil implementá-lo com a função LL, ou se você tiver um pacote stat como SAS ou MATLAB, use seus comandos: é o comando boxcox no MATLAB e o PROC TRANSREG no SAS.
Além disso, em R, isso está no pacote MASS, função boxcox ().
fonte
Para inclinação positiva (a cauda está na extremidade positiva do eixo x), há a transformação de raiz quadrada, a transformação de log e a transformação inversa / recíproca (em ordem crescente de gravidade). Portanto, se a transformação do log não for suficiente, você poderá usar o próximo nível de transformação. Box Cox executa todas as transformações automaticamente para que você possa escolher a melhor.
fonte
A maioria dos pacotes de software usará o número de Euler como a base de log padrão, AKA: log natural. Você pode usar um número base mais alto para controlar dados excessivamente inclinados à direita. Como você faz isso em termos de sintaxe depende do software que você está usando.
Se você precisar recuperar seus valores transformados depois que as estimativas forem feitas, pode ser um pouco mais fácil usar esse método, pois tudo o que você precisa fazer é executar um operador exponencial em sua variável, independentemente da sua base de log.
fonte