A transformação de log sempre mitigará a heterocedasticidade? Porque o livro declara que a transformação de log geralmente reduz a heterocedasticidade. Então, eu quero saber em quais casos isso não diminuirá a heterocedasticidade.
regression
data-transformation
heteroscedasticity
logarithm
Christopher S.
fonte
fonte
Respostas:
Não; às vezes vai piorar.
A heterocedasticidade, onde a propagação é próxima à proporcional à média condicional, tenderá a ser melhorada com o log (y), mas se não estiver aumentando com a média próxima a essa taxa (ou mais), a heterocedasticidade geralmente será agravada por essa transformação.
Como os logs "puxam" valores mais extremos à direita (valores altos), enquanto os valores à extrema esquerda (valores baixos) tendem a se esticar para trás:
isso significa que os spreads serão menores se os valores forem grandes, mas poderão se esticar se os valores já forem pequenos.
Se você conhece a forma aproximada da heterocedasticidade, às vezes pode trabalhar uma transformação que aproximadamente tornará a variação constante. Isso é conhecido como transformação estabilizadora de variância ; é um tópico padrão em estatística matemática. Existem várias postagens em nosso site relacionadas a transformações estabilizadoras de variação.
Se a propagação for proporcional à raiz quadrada da média (variação proporcional à média), uma transformação de raiz quadrada - a transformação estabilizadora de variação para esse caso - tenderá a se sair muito melhor do que uma transformação logarítmica; a transformação de log faz "demais" nesse caso. No segundo gráfico, temos a redução do spread à medida que a média aumenta, e então pegar toras ou raízes quadradas pioraria. (Acontece que o poder 1.5 realmente se sai razoavelmente bem ao estabilizar a variação nesse caso.)
fonte
De acordo com minha experiência, quando os dados são "em forma de cone" e inclinados (log normal ou não), a transformação de log é mais útil (veja abaixo). Esse tipo de dado geralmente surge de populações de pessoas, por exemplo, usuários de um sistema, onde haverá uma grande população de usuários ocasionais e pouco frequentes e uma pequena porção de usuários frequentes.
Aqui está um exemplo de alguns dados em forma de cone:
A obtenção dos logs de y e z fornece:
Lembre-se de que a regressão nos dados registrados alterará a forma da equação do ajuste dey=ax+b
para
log(y)=alog(x)+b (ou alternativamente y=xaeb )
Além desse cenário, eu diria que nunca é demais tentar representar graficamente os dados registrados, mesmo que isso não torne os resíduos mais homocedásticos. Muitas vezes, revela detalhes que você não veria ou espalharia / esmaga dados de uma maneira útil
fonte