Agora, entendo que isso depende de distribuições e normalidade nos preditores
a transformação de log torna os dados mais uniformes
Como afirmação geral, isso é falso - mas, mesmo que fosse o caso, por que a uniformidade seria importante?
Considere, por exemplo,
i) um preditor binário que aceita apenas os valores 1 e 2. A obtenção de logs o deixaria como um preditor binário que aceita apenas os valores 0 e log 2. Realmente não afeta nada, exceto a interceptação e a escala de termos que envolvem esse preditor. Mesmo o valor p do preditor permaneceria inalterado, assim como os valores ajustados.
ii) considere um preditor de inclinação para a esquerda. Agora pegue os logs. Normalmente fica mais inclinado para a esquerda.
iii) dados uniformes ficam inclinados para a esquerda
(muitas vezes nem sempre é uma mudança tão extrema)
menos afetado por outliers
Como uma afirmação geral, isso é falso. Considere valores discrepantes baixos em um preditor.
Pensei em log transformando todas as minhas variáveis contínuas que não são de interesse principal
Para quê? Se originalmente os relacionamentos fossem lineares, não seriam mais.
E se eles já estavam curvados, fazer isso automaticamente pode torná-los piores (mais curvos), não melhores.
-
Tomar registros de um preditor (de interesse primário ou não) pode às vezes ser adequado, mas nem sempre é assim.
Na minha opinião, não faz sentido executar a transformação de log (e qualquer transformação de dados , por sinal) apenas por causa disso. Como as respostas anteriores mencionaram, dependendo dos dados, algumas transformações seriam inválidas ou inúteis . Eu recomendo que você leia o excelente material introdutório da IMHO sobre transformação de dados : http://fmwww.bc.edu/repec/bocode/t/transint.html . Observe que os exemplos de código neste documento são escritos no idioma Stata , mas, caso contrário, o documento é genérico o suficiente e, portanto, útil também para usuários não Stata.
Algumas técnicas e ferramentas simples para lidar com problemas comuns relacionados a dados , como falta de normalidade , outliers e distribuições de mistura, podem ser encontradas neste artigo (observe que a estratificação como uma abordagem para lidar com a distribuição de mistura é provavelmente a mais simples - uma abordagem mais geral e complexa para isso é a análise de mistura , também conhecida como modelos de mistura finita , cuja descrição está além do escopo desta resposta). Transformação Box-Cox, brevemente mencionado nas duas referências acima, é uma transformação de dados bastante importante, especialmente para dados não normais (com algumas ressalvas). Para mais detalhes sobre a transformação Box-Cox, consulte este artigo introdutório .
fonte
A transformação de log nem sempre melhora as coisas. Obviamente, não é possível transformar variáveis de log-log que atingem valores zero ou negativos, e mesmo as positivas que abrangem zero podem sair com valores discrepantes negativos se transformadas em log.
Você não deve apenas registrar rotineiramente tudo, mas é uma boa prática pensar em transformar preditores positivos selecionados (adequadamente, geralmente um log, mas talvez outra coisa) antes de ajustar um modelo. O mesmo vale para a variável de resposta. O conhecimento do assunto também é importante. Alguma teoria da física ou da sociologia ou o que quer que possa naturalmente levar a certas transformações. Geralmente, se você ver variáveis que são positivamente inclinadas, é aí que um log (ou talvez uma raiz quadrada ou uma recíproca) pode ajudar.
Alguns textos de regressão parecem sugerir que você precise examinar gráficos de diagnóstico antes de considerar qualquer transformação, mas eu discordo. Eu acho que é melhor fazer o melhor trabalho possível ao fazer essas escolhas antes de montar qualquer modelo, para que você tenha o melhor ponto de partida possível; em seguida, consulte o diagnóstico para ver se você precisa ajustar a partir daí.
fonte
snoq
conjunto de dados nesse segmento CrossValidated (tendo em mente que o objetivo é ajustar uma mistura de gaussianos)?1) dados de contagem (y> 0) -> log (y) ou y = exp (b0 + biXi) 2) dados de contagem + zero (y> = 0) -> modelo de obstáculo (binomial + registro de contagem) 3) todos os efeitos multiplicativos (e erros) serão aditivos 4) variância ~ média -> log (y) ou y = exp (b0 + biXi) 5) ...
fonte