A transformação de log sempre mitigará a heterocedasticidade?

7

A transformação de log sempre mitigará a heterocedasticidade? Porque o livro declara que a transformação de log geralmente reduz a heterocedasticidade. Então, eu quero saber em quais casos isso não diminuirá a heterocedasticidade.

Christopher S.
fonte
4
Comece com qualquer dado homoscedástico. Aplique um logaritmo. Obviamente, não pode ser menos heterocedástico, então dê uma olhada. Use os dados que desejar.
whuber
Você pode encontrar um exemplo aqui: Alternativas à ANOVA unidirecional para dados heterocedásticos .
gung - Restabelece Monica
5
Se sua variação de erro for proporcional ao nível da variável, a transformação de log poderá ajudar. Não é uma aspirina da transformação, ele não cura tudo
Aksakal

Respostas:

16

Não; às vezes vai piorar.

A heterocedasticidade, onde a propagação é próxima à proporcional à média condicional, tenderá a ser melhorada com o log (y), mas se não estiver aumentando com a média próxima a essa taxa (ou mais), a heterocedasticidade geralmente será agravada por essa transformação.

plotagem de dois conjuntos de dados, um com spread proporcional à média, que mostra melhorias ao obter o log (y) e o segundo com o spread indo para o outro lado, que piora após o log

Como os logs "puxam" valores mais extremos à direita (valores altos), enquanto os valores à extrema esquerda (valores baixos) tendem a se esticar para trás:

insira a descrição da imagem aqui

isso significa que os spreads serão menores se os valores forem grandes, mas poderão se esticar se os valores já forem pequenos.


Se você conhece a forma aproximada da heterocedasticidade, às vezes pode trabalhar uma transformação que aproximadamente tornará a variação constante. Isso é conhecido como transformação estabilizadora de variância ; é um tópico padrão em estatística matemática. Existem várias postagens em nosso site relacionadas a transformações estabilizadoras de variação.

Se a propagação for proporcional à raiz quadrada da média (variação proporcional à média), uma transformação de raiz quadrada - a transformação estabilizadora de variação para esse caso - tenderá a se sair muito melhor do que uma transformação logarítmica; a transformação de log faz "demais" nesse caso. No segundo gráfico, temos a redução do spread à medida que a média aumenta, e então pegar toras ou raízes quadradas pioraria. (Acontece que o poder 1.5 realmente se sai razoavelmente bem ao estabilizar a variação nesse caso.)

Glen_b -Reinstate Monica
fonte
(+1) Mas talvez ajude a ser um pouco mais específico quando você diz "Heteroscedasticidade, onde a propagação é quase proporcional à média condicional ...", para deixar claro se você quer dizer "escala ao quadrado" ( variância) ou escala original (SD qualquer outro), como se esclareceu um pouco mais tarde para a transformação de raiz quadrada
Silverfish
@silv Obrigado. Na minha opinião, não era ambíguo se a palavra espalhar se refere a unidades originais de X ou unidades ao quadrado - para mim eram apenas unidades originais. No entanto, poderia se referir a qualquer medida comum de como os pontos estão espalhados (desvio médio, IQR, desvio absoluto médio, dp etc). Para incluir coisas como variação, eu teria dito "dispersão" em vez de propagação. No entanto, é claro que é possível que outras pessoas tenham uma compreensão diferente da minha. Você conhece outra palavra que se refere apenas a medidas de distância típica entre observações que eu poderia substituir em seu lugar? ...
ctd
ctd ... eu gostaria de evitar escrever um ensaio toda vez que quero mencionar esse conceito, fica muito difícil de seguir, eu realmente quero um curto prazo. Você acha que eu poderia dizer "escala"?
Glen_b -Reinstala Monica
11
Originalmente, escrevi "SD ou IQR ou o que quer que seja" (então consegui excluir alguns deles para transformá-lo em "SD que seja"), então entendo o problema! Na verdade, acho que uma afirmação inequívoca vale algumas palavras aqui, uma vez que distorções sobre "a variação é proporcional à média" podem ser facilmente encontradas em outros lugares. Eu provavelmente evitaria a "escala", pois o nível de dificuldade do tópico é bastante introdutório aparece nos cursos de estatística / econometria aplicados, enquanto o conceito de "escala" é mais abstrato e pode aparecer pela primeira vez em um curso superior e mais teórico.
Silverfish 24/03
2

De acordo com minha experiência, quando os dados são "em forma de cone" e inclinados (log normal ou não), a transformação de log é mais útil (veja abaixo). Esse tipo de dado geralmente surge de populações de pessoas, por exemplo, usuários de um sistema, onde haverá uma grande população de usuários ocasionais e pouco frequentes e uma pequena porção de usuários frequentes.

Aqui está um exemplo de alguns dados em forma de cone:

x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1

#regression of unlogged values

fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

insira a descrição da imagem aqui

A obtenção dos logs de y e z fornece:

#regression of logged values

fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

insira a descrição da imagem aqui

Lembre-se de que a regressão nos dados registrados alterará a forma da equação do ajuste de y=ax+b para log(y)=alog(x)+b (ou alternativamente y=xaeb)

Além desse cenário, eu diria que nunca é demais tentar representar graficamente os dados registrados, mesmo que isso não torne os resíduos mais homocedásticos. Muitas vezes, revela detalhes que você não veria ou espalharia / esmaga dados de uma maneira útil

Ingolifs
fonte