Transformando distribuições extremamente distorcidas

13

Suponha que eu tenha uma variável cuja distribuição seja inclinada positivamente em um grau muito alto, de modo que tomar o log não seja suficiente para colocá-lo dentro do intervalo de assimetria para uma distribuição normal. Quais são as minhas opções neste momento? O que posso fazer para transformar a variável em uma distribuição normal?

histelheim
fonte
2
Só para garantir, "negativo inclinado" significa a cauda longa apontando para a esquerda ou direita? Se estiver realmente inclinado negativamente (cauda longa à esquerda), a transformação de log não funcionará muito bem.
Penguin_Knight 28/02
6
A transformação recíproca é mais forte que a logarítmica e muitas vezes preserva o significado, pois as unidades de medida são apenas invertidas. Por exemplo, o tempo recíproco de fazer algo é um tipo de velocidade e vice-versa. O recíproco de milhas por galão ou km por litro faz sentido. Os recíprocos invertem a ordem e podem ser negados, se preferível. Eles naturalmente fazem parte do esquema Box-Cox com esse detalhe extra. Todos os valores devem ser positivos para que isso funcione bem. (Em princípio, ele iria trabalhar com todos os valores negativos, mas eu ainda tenho que ver um exemplo na prática.)
Nick Cox
2
@Aksakal Não consigo ver como uma boa ideia. O resultado é estatisticamente significativo apenas para valores . Se os valores são contados, é artificial que uma transformação seja indefinida para 0s ou 1s, independentemente de esses valores ocorrerem nos dados. Se valores são medidas, a restrição significa que a validade de uma transformação depende da escolha das unidades de medida, o que é um absurdo, como se não pudesse ser feito porque eu usava cm, mas pode ser feito porque uso mm. (Isso logaritmos produzir resultados complexos para argumentos negativos eu não acho que ajuda estatisticamente.)em(em())>1em(em(0,7))em(em(7))
Nick Cox
2
@Aksakal Forte demais para dizer "a transformação de log não é uma ferramenta para curar a distorção": se a distorção é o único problema, os logs geralmente funcionam muito bem. Se o seu argumento é que a distorção das distribuições marginais não precisa ser um grande problema, eu concordo.
Nick Cox
3
Concordo naturalmente, mas se usasse quadrados ou logaritmos, não me sentiria obrigado a oferecer referências, e de maneira semelhante aqui. Mas a utilidade dos recíprocos, particularmente tempos e velocidades, foi enfatizada por (por exemplo) Tukey, JW 1977. Análise exploratória de dados. Reading, MA: Addison-Wesley e em vários de seus artigos. Milhas por galão e galões por milha (ou vice-versa por km e km por litro) são lugares comuns nas discussões sobre dados de desempenho de carros. As densidades e seus recíprocos são exemplos bastante padrão em geografia e demografia.
Nick Cox

Respostas:

13

Tente a transformação reta de Box-Cox, conforme Box, GEP e Cox, DR (1964), "An Analysis of Transformations", Jornal da Sociedade Estatística Real, Série B , 26, 211-234. O SAS tem a descrição de sua função de probabilidade de log em Normalizing Transformations , que você pode usar para encontrar o parâmetro ideal , descrito em Atkinson, AC (1985), Plots, Transformations e Regression , Nova York: Oxford University Press.λ

É muito fácil implementá-lo com a função LL, ou se você tiver um pacote stat como SAS ou MATLAB, use seus comandos: é o comando boxcox no MATLAB e o PROC TRANSREG no SAS.

Além disso, em R, isso está no pacote MASS, função boxcox ().

Aksakal quase certamente binário
fonte
5

Para inclinação positiva (a cauda está na extremidade positiva do eixo x), há a transformação de raiz quadrada, a transformação de log e a transformação inversa / recíproca (em ordem crescente de gravidade). Portanto, se a transformação do log não for suficiente, você poderá usar o próximo nível de transformação. Box Cox executa todas as transformações automaticamente para que você possa escolher a melhor.

Sarah Thomas
fonte
-5

A maioria dos pacotes de software usará o número de Euler como a base de log padrão, AKA: log natural. Você pode usar um número base mais alto para controlar dados excessivamente inclinados à direita. Como você faz isso em termos de sintaxe depende do software que você está usando.

Se você precisar recuperar seus valores transformados depois que as estimativas forem feitas, pode ser um pouco mais fácil usar esse método, pois tudo o que você precisa fazer é executar um operador exponencial em sua variável, independentemente da sua base de log.

Matthew Brooks
fonte
6
e