Eu tenho o seguinte modelo linear:
Para abordar a heterocedasticidade dos resíduos, tentei aplicar uma transformação de log na variável dependente como mas ainda vejo o mesmo efeito de dispersão nos resíduos. Os valores de DV são relativamente pequenos, portanto a adição constante de +1 antes de fazer o log provavelmente não é apropriada nesse caso.
> summary(Y)
Min. :-0.0005647
1st Qu.: 0.0001066
Median : 0.0003060
Mean : 0.0004617
3rd Qu.: 0.0006333
Max. : 0.0105730
NA's :30.0000000
Como posso transformar as variáveis para melhorar o erro e a variação de previsão, particularmente para os valores ajustados à extrema direita?
fonte
Você gostaria de tentar a transformação Box-Cox . É uma versão de uma transformação de poder:
Algumas discussões anteriores incluem: Que outras transformações normalizadoras são comumente usadas além das comuns, como raiz quadrada, log, etc.? e Como devo transformar dados não negativos, incluindo zeros? . Você pode encontrar o código R seguindo Como procurar um procedimento estatístico no R?
Os econométricos deixaram de se preocupar com a heterocedasticidade após o trabalho seminal de Halbert White (1980) na criação de procedimentos inferenciais robustos à heteroscedasticidade (que de fato apenas recontaram a história anterior de um estatístico F. Eicker (1967)). Veja a página da Wikipedia que acabei de reescrever.
fonte
Existe uma solução muito simples para a questão da heterocedasticidade associada a variáveis dependentes nos dados de séries temporais. Não sei se isso é aplicável à sua variável dependente. Supondo que sim, em vez de usar Y nominal, altere-o para% de variação em Y do período atual em relação ao período anterior. Por exemplo, digamos que seu Y nominal seja um PIB de US $ 14 trilhões no período mais atual. Em vez disso, calcule a variação do PIB no período mais recente (digamos 2,5%).
Uma série temporal nominal sempre cresce e é sempre heterocedástica (a variação do erro aumenta ao longo do tempo porque os valores crescem). Uma série de% de alterações é tipicamente homosquástica porque a variável dependente é praticamente estacionária.
fonte