Por que a transformação de log é usada com distribuições inclinadas à direita?

18

Uma vez ouvi isso

a transformação de log é a mais popular para distribuições inclinadas à direita em regressão linear ou regressão quantílica

Gostaria de saber que existe alguma razão subjacente a esta declaração? Por que a transformação de log é adequada para uma distribuição inclinada à direita?

Que tal uma distribuição inclinada para a esquerda?

user3269
fonte

Respostas:

26

Economistas (como eu) adoram a transformação do log. Adoramos especialmente em modelos de regressão, assim:

emYEu=β1+β2emXEu+ϵEu

Por que nós amamos tanto? Aqui está a lista de razões que dou aos alunos quando dou palestras sobre ele:

  1. Ela respeita a positividade de . Muitas vezes, em aplicações do mundo real na economia e em outros lugares, é, por natureza, um número positivo. Pode ser um preço, uma taxa de imposto, uma quantidade produzida, um custo de produção, gastos em alguma categoria de mercadorias etc. Os valores previstos de uma regressão linear não transformada podem ser negativos. Os valores previstos de uma regressão transformada por log nunca podem ser negativos. Eles são (Veja uma resposta minha anterior para derivação).Y Y J = exp ( β 1 + β 2 LN X j )1YYY^j=exp(β1+β2emXj)1Nexp(eEu)
  2. A forma funcional log-log é surpreendentemente flexível. Aviso: que nos dá: São muitas formas diferentes. Uma linha (cuja inclinação seria determinada por , de modo que possa ter qualquer inclinação positiva), uma hipérbole, uma parábola e uma forma de "raiz quadrada". Eu o desenhei com e , mas em uma aplicação real, nenhuma delas seria verdadeira, de modo que a inclinação e a altura das curvas em exp ( β 1 ) β1=0ϵ=0X=1
    emYEu=β1+β2emXEu+ϵEuYEu=exp(β1+β2emXEu)exp(ϵEu)YEu=(XEu)β2exp(β1)exp(ϵEu)
    Amando os formulários funcionais de log-logexp(β1)β1=0 0ϵ=0 0X=1 seria controlado por aqueles em vez de definido como 1.
  3. Como o TrynnaDoStat menciona, o formulário log-log "extrai" grandes valores que geralmente facilitam a visualização dos dados e, às vezes, normalizam a variação nas observações.
  4. O coeficiente é interpretado como uma elasticidade. É o aumento percentual em de um aumento de um por cento em . Y Xβ2YX
  5. Se é uma variável fictícia, você a inclui sem registrá-la. Nesse caso, é a diferença percentual em entre a categoria e a categoria .β 2 Y X = 1 X = 0Xβ2YX=1X=0 0
  6. Se estiver na hora, inclua-o novamente sem registrá-lo, normalmente. Nesse caso, é a taxa de crescimento em --- medida em qualquer unidade de tempo em que seja medido. Se são anos, o coeficiente é a taxa de crescimento anual em , por exemplo.Xβ2YXXY
  7. O coeficiente de inclinação, , torna-se invariante na escala. Isso significa, por um lado, que ele não tem unidades e, por outro lado, que se você redimensionar (ou seja, alterar as unidades de) ou , isso não terá absolutamente nenhum efeito no valor estimado de . Bem, pelo menos com o OLS e outros estimadores relacionados.β2XYβ2
  8. Se seus dados forem distribuídos normalmente em log, a transformação do log os fará normalmente distribuídos. Os dados normalmente distribuídos têm muito a oferecer.

Os estatísticos geralmente consideram os economistas entusiasmados demais com essa transformação específica dos dados. Acho que é porque eles julgam o meu ponto 8 e a segunda metade do meu ponto 3 muito importantes. Assim, nos casos em que os dados não são normalmente distribuídos por log ou em que o registro dos dados não resulta na variação dos dados transformados entre as observações, um estatístico tenderá a não gostar muito da transformação. É provável que o economista avance de qualquer maneira, pois o que realmente gostamos na transformação são os pontos 1,2 e 4-7.

Conta
fonte
7
Esses são pontos padrão, mas é muito bom reuni-los de forma concisa. Muitas contas abrangem apenas alguns desses pontos. Ponto pequeno: acho que seu contraste entre as atitudes de economistas e estatísticos é um pouco exagerado. Por exemplo, a importância da família de link sobre erro percorre a literatura generalizada de modelos lineares, embora possa ter mais trombetas. Keene, Oliver N. 1995. A transformação do log é especial. Statistics in Medicine 14: 811-819. DOI: 10.1002 / sim.4780140810 é outro exemplo.
Nick Cox
21

Primeiro, vamos ver o que normalmente acontece quando registramos algo que está inclinado corretamente.

A linha superior contém histogramas para amostras de três distribuições diferentes e cada vez mais distorcidas.

A linha inferior contém histogramas para seus logs.

insira a descrição da imagem aqui

yxz

Se quisermos que nossas distribuições pareçam mais normais, a transformação definitivamente melhorou o segundo e o terceiro casos. Podemos ver que isso pode ajudar.


Então, por que isso funciona?

Observe que, quando observamos uma imagem da forma distributiva, não estamos considerando a média ou o desvio padrão - isso apenas afeta os rótulos no eixo.

Então, podemos imaginar olhar para algum tipo de variável "padronizada" (embora permaneçam positivas, todas têm localização e propagação semelhantes, digamos)

Tomar registros "puxa" valores mais extremos à direita (valores altos) em relação à mediana, enquanto valores à extrema esquerda (valores baixos) tendem a se esticar para trás, mais longe da mediana.

insira a descrição da imagem aqui

xyz

y

Mas quando pegamos toras, elas são puxadas de volta para a mediana; depois de fazer registros, são apenas cerca de 2 intervalos interquartis acima da mediana.

y

insira a descrição da imagem aqui

Não é por acaso que as proporções 750/150 e 150/30 são 5 quando log (750) e log (30) terminaram na mesma distância da mediana do log (y). É assim que os logs funcionam - convertendo proporções constantes em diferenças constantes.

Nem sempre é o caso de que o log ajudará visivelmente. Por exemplo, se você pegar uma variável aleatória lognormal e alterá-la substancialmente para a direita (ou seja, adicionar uma constante grande a ela), de modo que a média se torne grande em relação ao desvio padrão, então tomar o log disso fará pouca diferença para a forma. Seria menos distorcido - mas mal.


Mas outras transformações - a raiz quadrada, por exemplo - também atrairão grandes valores assim. Por que os logs em particular são mais populares?

-0,162

Muitos dados econômicos e financeiros se comportam assim, por exemplo (efeitos constantes ou quase constantes na escala percentual). A escala de log faz muito sentido nesse caso. Além disso, como resultado desse efeito de escala percentual. a propagação de valores tende a ser maior à medida que a média aumenta - e a obtenção de registros também tende a estabilizar a propagação. Isso geralmente é mais importante que a normalidade. De fato, todas as três distribuições no diagrama original vêm de famílias em que o desvio padrão aumentará com a média e, em cada caso, o registro de logs estabiliza a variação. [Porém, isso não acontece com todos os dados distorcidos corretos. É muito comum no tipo de dados que surge em áreas de aplicação específicas.]

Há também momentos em que a raiz quadrada tornará as coisas mais simétricas, mas tende a acontecer com distribuições menos distorcidas do que uso nos meus exemplos aqui.

Poderíamos (com bastante facilidade) construir outro conjunto de três exemplos de inclinação ligeiramente à direita, onde a raiz quadrada fazia uma inclinação à esquerda, uma simétrica e a terceira ainda estava à direita (mas um pouco menos inclinada do que antes).


E as distribuições inclinadas para a esquerda?

Se você aplicou a transformação de log a uma distribuição simétrica, ela tenderá a inclinar para a esquerda pelo mesmo motivo que muitas vezes torna a inclinação direita mais simétrica - consulte a discussão relacionada aqui .

Da mesma forma, se você aplicar a transformação de log a algo que já está inclinado, ele tenderá a torná-lo ainda mais inclinado, puxando as coisas acima da mediana de maneira ainda mais firme e esticando ainda mais as coisas abaixo da mediana.

Portanto, a transformação do log não seria útil.

Veja também transformações de potência / escada de Tukey. As distribuições que são deixadas inclinadas podem ser tornadas mais simétricas, tomando uma potência (maior que 1 - quadrado), ou exponenciando. Se houver um limite superior óbvio, pode-se subtrair as observações do limite superior (fornecendo um resultado inclinado à direita) e depois tentar transformá-lo.

Glen_b -Reinstate Monica
fonte
Obrigado Glen_b por esta excelente resposta. Você nos fornece dados empíricos para ilustrar e, em seguida, fornece uma explicação intuitiva sobre por que / como essa transformação funciona. Muito apreciado.
Ram
5

y=eun(x)x

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Agora, em uma distribuição inclinada à direita, você tem alguns valores muito grandes. A transformação de log essencialmente enrola esses valores no centro da distribuição, fazendo com que pareça mais com uma distribuição Normal.

TrynnaDoStat
fonte
1

Todas essas respostas são propostas de vendas para a transformação natural do log. Existem advertências para seu uso, advertências que são generalizáveis ​​para toda e qualquer transformação. Como regra geral, todas as transformações matemáticas remodelam o PDF das variáveis ​​brutas subjacentes, atuando para compactar, expandir, inverter, redimensionar, o que for. O maior desafio que isso apresenta, do ponto de vista puramente prático, é que, quando usado em modelos de regressão em que as previsões são uma saída-chave do modelo, as transformações da variável dependente, Y-hat, estão sujeitos a um viés de retransformação potencialmente significativo. Observe que as transformações naturais de log não são imunes a esse viés, elas não são tão afetadas por ela quanto outras transformações de ação semelhantes. Existem documentos que oferecem soluções para esse viés, mas eles realmente não funcionam muito bem. Na minha opinião, você está em um terreno muito mais seguro, sem mexer em tentar transformar Y e encontrar formas funcionais robustas que permitem manter a métrica original. Por exemplo, além do log natural, existem outras transformações que comprimem a cauda de variáveis ​​distorcidas e kurtóticas, como o seno hiperbólico inverso ou o W de Lambert.. Ambas estas transformações funcionam muito bem em gerar PDFs simétricas e, portanto, Gaussian-like erros, a partir de informações com caudas pesadas, mas atente para o viés quando você tentar trazer as previsões de volta para a escala original para o DV, Y . Pode ser feio.

Mike Hunter
fonte
3
W
3
Todos nos irritamos com vários aspectos das regras, mas muitos de nós continuam interagindo aqui, porque descobrimos a sabedoria deles e descobrimos maneiras construtivas de contornar as restrições aparentes. Esta regra é fundamental: um post que não responde a uma pergunta não pertence. Ele tende a manter cada thread coerente, limitado, limpo e no tópico. É a chave para criar material que tende a ser mais útil e interessante do que você encontrará em qualquer outro site de perguntas e respostas.
whuber
3
Você mexeu com isso, mas, na minha opinião, continua sendo muito problemático como resposta. 1. Você está ampliando a questão de várias maneiras, por exemplo, trazendo também distribuições de cauda pesada. Isso pode ser uma coisa razoável de se fazer em alguns tópicos, mas aqui está um tópico bem focado, com respostas de alta qualidade e a resposta extra aqui é, de um modo geral, turvando as águas. Quando existem boas respostas a uma pergunta, deve haver uma boa razão para uma nova resposta.
Nick Cox
4
2. As afirmações sobre viés de transformação permanecem agitadas; não há precisão técnica na resposta que corresponda às afirmações, incluindo a afirmação misteriosa de que o log é menos problemático do que outras transformações semelhantes.
Nick Cox
4
W
0

Muitos pontos interessantes foram feitos. Um pouco mais?

1) Eu sugeriria que outra questão com regressão linear é que o 'lado esquerdo' da equação de regressão é E (y): o valor esperado. Se a distribuição do erro não for simétrica, os méritos para o estudo do valor esperado são fracos. O valor esperado não é de interesse central quando os erros são assimétricos. Pode-se explorar a regressão quantílica. Então, o estudo, digamos, da mediana ou de outros pontos percentuais, pode valer a pena, mesmo que os erros sejam assimétricos.

2) Se alguém optar por transformar a variável de resposta, poderá desejar transformar uma das mais variáveis ​​explicativas com a mesma função. Por exemplo, se alguém tem um resultado 'final' como resposta, pode ter um resultado 'de linha de base' como variável explicativa. Para interpretação, faz sentido a transformação 'final' e 'baseline' com a mesma função.

3) O principal argumento para transformar uma variável explicativa é geralmente em torno da linearidade da relação resposta - explicação. Atualmente, pode-se considerar outras opções, como splines cúbicos restritos ou polinômios fracionários para a variável explicativa. Certamente, muitas vezes há uma certa clareza se a linearidade puder ser encontrada.

Gordon Hilton Fick
fonte