Por que não transformar todas as variáveis ​​que não são de interesse principal?

10

Os livros e discussões geralmente afirmam que, ao enfrentar problemas (dos quais existem alguns) com um preditor, a transformação de log é uma possibilidade. Agora, entendo que isso depende de distribuições e a normalidade nos preditores não é uma suposição de regressão; mas a transformação de log torna os dados mais uniformes, menos afetados por outliers e assim por diante.

Pensei em log transformando todas as minhas variáveis ​​contínuas que não são do interesse principal, ou seja, variáveis ​​pelas quais apenas ajusto.

Isso está errado? Boa? Sem utilidade?

Adam Robinsson
fonte

Respostas:

24

Agora, entendo que isso depende de distribuições e normalidade nos preditores

a transformação de log torna os dados mais uniformes

Como afirmação geral, isso é falso - mas, mesmo que fosse o caso, por que a uniformidade seria importante?

Considere, por exemplo,

i) um preditor binário que aceita apenas os valores 1 e 2. A obtenção de logs o deixaria como um preditor binário que aceita apenas os valores 0 e log 2. Realmente não afeta nada, exceto a interceptação e a escala de termos que envolvem esse preditor. Mesmo o valor p do preditor permaneceria inalterado, assim como os valores ajustados.

insira a descrição da imagem aqui

ii) considere um preditor de inclinação para a esquerda. Agora pegue os logs. Normalmente fica mais inclinado para a esquerda.

insira a descrição da imagem aqui

iii) dados uniformes ficam inclinados para a esquerda

insira a descrição da imagem aqui

(muitas vezes nem sempre é uma mudança tão extrema)

menos afetado por outliers

Como uma afirmação geral, isso é falso. Considere valores discrepantes baixos em um preditor.

insira a descrição da imagem aqui

Pensei em log transformando todas as minhas variáveis ​​contínuas que não são de interesse principal

Para quê? Se originalmente os relacionamentos fossem lineares, não seriam mais.

insira a descrição da imagem aqui

E se eles já estavam curvados, fazer isso automaticamente pode torná-los piores (mais curvos), não melhores.

-

Tomar registros de um preditor (de interesse primário ou não) pode às vezes ser adequado, mas nem sempre é assim.

Glen_b -Reinstate Monica
fonte
2
Muito obrigado por esta resposta esplêndida. Acho que muitos de nós, pelo menos eu, precisávamos vê-lo visualizado dessa maneira. Mas você também concorda que dados inclinados à direita devem estar sujeitos à transformação de log? Mais do que outros enviesamentos e formas?
Adam Robinsson
11
Geralmente não, não. Sob algumas condições muito específicas, talvez.
Glen_b -Reinstala Monica
Também estou surpreso ao ver que ninguém mencionou a interpretabilidade do modelo. Se você transformar sua variável dependente, torna-se um pouco mais difícil interpretar o modelo - especialmente para leigos ou para aqueles sem formação estatística / matemática. Por exemplo, digamos que você tivesse um modelo que previsse a altura de uma árvore em pés, dada a circunferência do tronco em polegadas. A interpretação de , para um aumento de uma polegada na circunferência, a altura média da árvore é aumentada pelo logon de meio pé é mais complicado (continuação)β^=0.50
StatsStudent
(continuação) do que ser capaz de dizer, por exemplo, para um aumento de uma polegada no número de circunferência do tronco, a altura média da árvore é aumentada em meio pé. Quanto mais tarde é mais fácil de interpretar e mais fácil de calcular no campo sem uma calculadora.
StatsStudent
10

Na minha opinião, não faz sentido executar a transformação de log (e qualquer transformação de dados , por sinal) apenas por causa disso. Como as respostas anteriores mencionaram, dependendo dos dados, algumas transformações seriam inválidas ou inúteis . Eu recomendo que você leia o excelente material introdutório da IMHO sobre transformação de dados : http://fmwww.bc.edu/repec/bocode/t/transint.html . Observe que os exemplos de código neste documento são escritos no idioma Stata , mas, caso contrário, o documento é genérico o suficiente e, portanto, útil também para usuários não Stata.

Algumas técnicas e ferramentas simples para lidar com problemas comuns relacionados a dados , como falta de normalidade , outliers e distribuições de mistura, podem ser encontradas neste artigo (observe que a estratificação como uma abordagem para lidar com a distribuição de mistura é provavelmente a mais simples - uma abordagem mais geral e complexa para isso é a análise de mistura , também conhecida como modelos de mistura finita , cuja descrição está além do escopo desta resposta). Transformação Box-Cox, brevemente mencionado nas duas referências acima, é uma transformação de dados bastante importante, especialmente para dados não normais (com algumas ressalvas). Para mais detalhes sobre a transformação Box-Cox, consulte este artigo introdutório .

Aleksandr Blekh
fonte
2
Grandes referências Aleksandr. Obrigado por compartilhar o tão necessário sceptismo. Obrigado.
Adam Robinsson
11
@ AdamRobinsson: O prazer é meu, Adam! Que bom que você gostou da minha resposta.
Aleksandr Blekh
8

A transformação de log nem sempre melhora as coisas. Obviamente, não é possível transformar variáveis ​​de log-log que atingem valores zero ou negativos, e mesmo as positivas que abrangem zero podem sair com valores discrepantes negativos se transformadas em log.

Você não deve apenas registrar rotineiramente tudo, mas é uma boa prática pensar em transformar preditores positivos selecionados (adequadamente, geralmente um log, mas talvez outra coisa) antes de ajustar um modelo. O mesmo vale para a variável de resposta. O conhecimento do assunto também é importante. Alguma teoria da física ou da sociologia ou o que quer que possa naturalmente levar a certas transformações. Geralmente, se você ver variáveis ​​que são positivamente inclinadas, é aí que um log (ou talvez uma raiz quadrada ou uma recíproca) pode ajudar.

Alguns textos de regressão parecem sugerir que você precise examinar gráficos de diagnóstico antes de considerar qualquer transformação, mas eu discordo. Eu acho que é melhor fazer o melhor trabalho possível ao fazer essas escolhas antes de montar qualquer modelo, para que você tenha o melhor ponto de partida possível; em seguida, consulte o diagnóstico para ver se você precisa ajustar a partir daí.

Russ Lenth
fonte
Todos acrescentam que essas considerações se aplicam a preditores importantes e sem importância.
precisa
Obrigado @rvl! Estou sempre confuso com a discordância entre quando e como escolher transformações; os livros geralmente afirmam que, como você escreveu, é necessário verificar a forma de todas as variáveis ​​antes de tocar em regressão. Obrigado por fornecer suas idéias.
Adam Robinsson
@rvl, obrigado pela sua resposta. Você transformaria o snoqconjunto de dados nesse segmento CrossValidated (tendo em mente que o objetivo é ajustar uma mistura de gaussianos)?
Zhubarb
-3

1) dados de contagem (y> 0) -> log (y) ou y = exp (b0 + biXi) 2) dados de contagem + zero (y> = 0) -> modelo de obstáculo (binomial + registro de contagem) 3) todos os efeitos multiplicativos (e erros) serão aditivos 4) variância ~ média -> log (y) ou y = exp (b0 + biXi) 5) ...

Ivan Kshnyasev
fonte
Essa resposta é difícil de ler e não está claro se ela tenta responder à pergunta.
Juho Kokkala
11
TEX