Na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais?

164

Estou procurando uma distribuição melhor comportada para a variável independente em questão, ou para reduzir o efeito de outliers ou algo mais?

regression distributions data-transformation logarithm regression-strategies d_2
fonte

11

Você está perguntando sobre como reduzir o efeito de outliers ou quando usar o log de alguma variável?

Benjamin Bannier

23

Eu acho que o OP está dizendo "Eu ouvi falar de pessoas que usam variáveis de entrada de logon: por que elas fazem isso?"

Shane

Por que apenas o log? Esta pergunta não deve se aplicar a qualquer técnica de transformação de dados que possa ser usada para minimizar os resíduos associados a mx + b?

AsymLabs

11

@AsymLabs - O log pode ser especial em regressão, pois é a única função que converte um produto em um somatório.

probabilityislogic

12

Um aviso aos leitores: a pergunta é sobre a transformação de IVs, mas algumas das respostas parecem estar falando de razões para transformar DVs. Não se deixe enganar ao pensar que essas também são razões para transformar os IVs - alguns podem ser, outros certamente não. Em particular, a distribuição do IV não é geralmente relevante (de fato, a distribuição marginal do DV também não é).

Glen_b

168

Eu sempre hesito em entrar em um segmento com tantas respostas excelentes como essa, mas me parece que poucas respostas fornecem qualquer razão para preferir o logaritmo a alguma outra transformação que "esmaga" os dados, como uma raiz ou recíproca.

Antes de chegarmos a isso, vamos recapitular a sabedoria nas respostas existentes de uma maneira mais geral. Alguma reexpressão não linear da variável dependente é indicada quando qualquer um dos seguintes itens se aplica:

Os resíduos têm uma distribuição distorcida. O objetivo de uma transformação é obter resíduos que são distribuídos aproximadamente simetricamente (aproximadamente zero, é claro).
A dispersão dos resíduos muda sistematicamente com os valores da variável dependente ("heterocedasticidade"). O objetivo da transformação é remover essa mudança sistemática na disseminação, alcançando uma "homoscedasticidade" aproximada.
Linearizar um relacionamento.
Quando a teoria científica indica. Por exemplo, a química geralmente sugere expressar concentrações como logaritmos (fornecendo atividades ou mesmo o pH bem conhecido).
Quando uma teoria estatística mais nebulosa sugere que os resíduos refletem "erros aleatórios" que não se acumulam de maneira aditiva.
Para simplificar um modelo. Por exemplo, às vezes um logaritmo pode simplificar o número e a complexidade dos termos de "interação".

(Essas indicações podem entrar em conflito umas com as outras; nesses casos, é necessário julgamento.)

Então, quando um logaritmo é indicado especificamente em vez de alguma outra transformação?

Os resíduos têm uma distribuição "fortemente" inclinada positivamente. Em seu livro sobre a EDA, John Tukey fornece maneiras quantitativas para estimar a transformação (dentro da família das transformações Box-Cox, ou poder,) com base nas estatísticas de classificação dos resíduos. Na verdade, tudo se resume ao fato de que, se tomar o log simétrico dos resíduos, provavelmente era a forma correta de re-expressão; caso contrário, é necessária alguma outra expressão.
Quando o DP dos resíduos é diretamente proporcional aos valores ajustados (e não a alguma potência dos valores ajustados).
Quando o relacionamento está próximo do exponencial.
Quando se acredita que os resíduos refletem erros acumulativos multiplicativamente.
Você realmente deseja um modelo no qual as alterações marginais nas variáveis explicativas sejam interpretadas em termos de alterações multiplicativas (percentuais) na variável dependente.

Finalmente, algumas não razões para usar uma re-expressão :

Fazer discrepâncias não parecer discrepantes. Um outlier é um dado que não se encaixa em uma descrição parcimoniosa e relativamente simples dos dados. Alterar a descrição de alguém para melhorar a aparência dos discrepantes é geralmente uma inversão incorreta de prioridades: primeiro obtenha uma descrição estatisticamente válida dos dados e cientificamente válida e depois explore os discrepantes. Não deixe que os discrepantes ocasionais determinem como descrever o restante dos dados!
Porque o software fez isso automaticamente. (Já chega!)
Porque todos os dados são positivos. (A positividade geralmente implica distorção positiva, mas não precisa. Além disso, outras transformações podem funcionar melhor. Por exemplo, uma raiz geralmente funciona melhor com dados contados.)
Fazer com que dados "ruins" (talvez de baixa qualidade) pareçam bem comportados.
Ser capaz de plotar os dados. (Se uma transformação é necessária para poder plotar os dados, provavelmente é necessária por um ou mais bons motivos já mencionados. Se o único motivo da transformação realmente for para plotar, vá em frente e faça - mas apenas para plotar o Deixe os dados não transformados para análise.)

whuber
fonte

11

E quanto a variáveis como a densidade populacional em uma região ou a proporção criança / professor para cada distrito escolar ou o número de homicídios por mil habitantes na população? Vi professores tomarem o log dessas variáveis. Não está claro para mim o porquê. Por exemplo, a taxa de homicídios já não é uma porcentagem? O log mudaria a porcentagem da taxa? Por que o log da proporção professor-criança seria preferido? A transformação do log deve ser tomada para todas as variáveis contínuas quando não houver uma teoria subjacente sobre uma verdadeira forma funcional?

user1690130

11

@JG Pequenas proporções tendem a ter distribuições distorcidas; logaritmos e raízes provavelmente os tornarão mais simétricos. Não entendo suas perguntas relacionadas a porcentagens: talvez você esteja utilizando diferentes usos de porcentagens (uma para expressar algo como uma proporção de um todo e outra para expressar uma mudança relativa)? Não creio ter escrito nada defendendo que os logaritmos sempre sejam aplicados - longe disso! Portanto, não entendo a base da sua última pergunta.

whuber

2

"Quando se acredita que resíduos refletem erros acumulativos multiplicativamente". Estou tendo problemas para interpretar esta frase. É possível aprofundar isso um pouco com outra frase ou duas? A que acumulação você está se referindo?

Hatshepsut

@ user1690130 para proporções e densidades, elas geralmente devem ser ajustadas como uma distribuição da família de poisson para contagens com um deslocamento para a exposição. Por exemplo, número de pessoas é a contagem e o deslocamento é a área da região. Veja esta pergunta para uma boa explicação - stats.stackexchange.com/questions/11182/…

Michael Barton

2

@Hatshepsut, um exemplo simples de acumular multiplicativamente erros seria o volume como variável dependente e erros nas medições de cada dimensão linear.

abalter em

73

Eu sempre digo aos alunos que existem três razões para transformar uma variável usando o logaritmo natural. O motivo para registrar a variável determinará se você deseja registrar as variáveis independentes, dependentes ou ambas. Para ser claro, estou falando sobre o logaritmo natural.

Em primeiro lugar, para melhorar o ajuste do modelo, como outros pôsteres observaram. Por exemplo, se seus resíduos não são normalmente distribuídos, o uso do logaritmo de uma variável inclinada pode melhorar o ajuste, alterando a escala e tornando a variável mais "normalmente" distribuída. Por exemplo, os ganhos são truncados em zero e geralmente exibem inclinação positiva. Se a variável tiver inclinação negativa, você poderá inverter a variável antes de executar o logaritmo. Estou pensando aqui particularmente nas escalas Likert que são inseridas como variáveis contínuas. Embora isso geralmente se aplique à variável dependente, você ocasionalmente tem problemas com os resíduos (por exemplo, heterocedasticidade) causados por uma variável independente, que às vezes pode ser corrigida usando o logaritmo dessa variável. Por exemplo, ao executar um modelo que explicava as avaliações dos professores em um conjunto de professores e turmas, a variável "tamanho da turma" (ou seja, o número de alunos na aula) apresentava discrepâncias que induziam heterocedasticidade, porque a variação nas avaliações dos professores era menor em maior número. coortes do que coortes menores. Registrar a variável do aluno ajudaria, embora neste exemplo, calcular erros padrão robustos ou usar mínimos quadrados ponderados possa facilitar a interpretação.

O segundo motivo para registrar uma ou mais variáveis no modelo é a interpretação. Eu chamo esse motivo de conveniência. Se você registrar suas variáveis dependentes (Y) e independentes (X), seus coeficientes de regressão ( ) serão elasticidades e a interpretação seria a seguinte: um aumento de 1% em X levaria a um ceteris paribus % aumento em Y (em média). Registrar apenas um lado da "equação" da regressão levaria a interpretações alternativas, conforme descrito abaixo: $\beta$ $\beta$

Y e X - um aumento de uma unidade em X levaria a um aumento / diminuição de $\beta$

Log Y e Log X - um aumento de 1% em X levaria a um aumento / diminuição de % em Y $\beta$

Log Y e X - um aumento de uma unidade em X levaria a um aumento / diminuição de % em Y $\beta*100$

Y e Log X - um aumento de 1% em X levaria a um aumento / diminuição de $\beta/100$

E, finalmente, poderia haver uma razão teórica para fazê-lo. Por exemplo, alguns modelos que gostaríamos de estimar são multiplicativos e, portanto, não lineares. Tomar logaritmos permite que esses modelos sejam estimados por regressão linear. Bons exemplos disso incluem a função de produção de Cobb-Douglas em economia e a Equação de Mincer em educação. A função de produção Cobb-Douglas explica como as entradas são convertidas em saídas:

Y = A L^{α} K^{β}

$Y = A L^\alpha K^\beta$

Onde

$Y$ é a produção total ou saída de alguma entidade, por exemplo, empresa, fazenda, etc.

$A$ é a produtividade total do fator (a mudança na produção não causada pelos insumos, por exemplo, pelas mudanças tecnológicas ou pelo clima)

$L$ é a entrada de trabalho

$K$ é a entrada de capital

$\alpha$ e são elasticidades de saída. $\beta$

Tomando logaritmos disso, é fácil estimar a função usando a regressão linear OLS como tal:

\log (Y) = \log (A) + α \log (L) + β \log (K)

$\log(Y) = \log(A) + \alpha\log(L) + \beta\log(K)$

Graham Cookson
fonte

5

"Log Y e X - um aumento de uma unidade em X levaria a um aumento / diminuição de 100% em Y": Eu acho que isso se aplica apenas quando β é pequeno, de modo que exp (β) ≈ 1 + β

Ida

11

obrigado agradável e claro! Uma pergunta, como você interpreta as interceptações no caso Log Y e X? e, geralmente, eu estou preocupado com a forma de relatório de log regressões transformados ...

Bakaburg

2

Sou um otário por respostas que contenham exemplos da Economics ["Você me teve na ' Função de Produção Cobb-Douglas '"] ... Porém, uma coisa: você deve alterar o termo de interceptação na segunda equação para logar (A ) para torná-lo consistente com a primeira equação.

Steve S

@Ida de fato. Para o leitor interessado, meu post aqui descreve por que, para "y" registrado, o analista deve interceptar conforme a variação percentual.

100 \times (e^{β} - 1)

$100 \times (e^\beta-1)$

Adamo

21

Para saber mais sobre o excelente ponto do whuber sobre razões para preferir o logaritmo a algumas outras transformações, como raiz ou recíproca, mas focando na interpretabilidade exclusiva dos coeficientes de regressão resultantes da transformação de log em comparação com outras transformações, consulte:

Oliver N. Keene. A transformação do log é especial. Estatística em Medicina 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de legalidade dúbia disponível em http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Se você registrar a variável independente x na base b , poderá interpretar o coeficiente de regressão (e IC) como a mudança na variável dependente y por b - aumento de vezes em x . (Os logs da base 2 são, portanto, frequentemente úteis, pois correspondem à alteração em y por duplicação em x , ou os logs da base 10 se x variar em muitas ordens de magnitude, o que é mais raro). Outras transformações, como raiz quadrada, não têm uma interpretação tão simples.

Se você registrar a variável dependente y (não a pergunta original, mas uma que várias das respostas anteriores abordaram), acho a idéia de Tim Cole de 'simpercentes' atraente para apresentar os resultados (eu até as usei em um artigo uma vez), embora eles não pareçam ter percebido isso amplamente:

Tim J Cole. Sympercents: diferenças percentuais simétricas na escala de 100 log (e) simplificam a apresentação dos dados transformados em log. Estatística em Medicina 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Estou tão feliz que Stat Med parou de usar SICIs como DOIs ...]

uma parada
fonte

11

Obrigado pela referência e pontos muito bons. A questão de interesse é se esse problema se aplica a todas as transformações, não apenas aos logs. Para nós, a estatística / probabilidade é útil na medida em que permite a previsão efetiva do desempenho ou critérios / orientações eficazes. Ao longo dos anos, usamos transformações de energia (logs com outro nome), transformações polinomiais e outras (mesmo transformações por partes) para tentar reduzir os resíduos, aumentar os intervalos de confiança e, geralmente, melhorar a capacidade preditiva de um determinado conjunto de dados. Estamos dizendo agora que isso está incorreto?

AsymLabs

11

@AsymLabs, quão distintas são as duas culturas de Breiman (aproximadamente preditores e modeladores)? Cf. Duas culturas - contenciosas.

Denis #

15

Normalmente, o log de uma variável de entrada leva para escalá-la e alterar a distribuição (por exemplo, para torná-la normalmente distribuída). Não pode ser feito cegamente; você precisa ter cuidado ao fazer qualquer escala para garantir que os resultados ainda sejam interpretáveis.

Isso é discutido na maioria dos textos estatísticos introdutórios. Você também pode ler o artigo de Andrew Gelman sobre "Escalonamento de entradas de regressão dividindo por dois desvios padrão" para uma discussão sobre isso. Ele também tem uma discussão muito boa sobre isso no início de "Análise de dados usando regressão e modelos multiníveis / hierárquicos" .

Tomar o log não é um método apropriado para lidar com dados / outliers incorretos.

Shane
fonte

12

Você costuma registrar os dados quando há um problema com os resíduos. Por exemplo, se você plotar os resíduos em uma covariável específica e observar um padrão crescente / decrescente (uma forma de funil), uma transformação poderá ser apropriada. Os resíduos não aleatórios geralmente indicam que as suposições do seu modelo estão incorretas, ou seja, dados não normais.

Alguns tipos de dados se prestam automaticamente a transformações logarítmicas. Por exemplo, eu costumo fazer anotações ao lidar com concentrações ou idade.

Embora as transformações não sejam usadas principalmente para lidar com valores discrepantes, elas ajudam desde que os registros esmagam seus dados.

csgillespie
fonte

11

Mas ainda assim, o uso de log altera o modelo - para regressão linear é y ~ a * x + b, para regressão linear no log é y ~ y0 * exp (x / x0).

11

Eu concordo - tomar o registro muda seu modelo. Mas se você precisar transformar seus dados, isso implica que seu modelo não era adequado em primeiro lugar.

Csgillespie

2

@cgillespie: Concentrações, sim; mas idade? Isso é estranho.

whuber

@ whuber: Suponho que é muito dependente de dados, mas os conjuntos de dados que usei, você veria uma grande diferença entre 10 e 18 anos, mas uma pequena diferença entre 20 e 28 anos. Mesmo para crianças pequenas, a diferença entre a idade de 0 a 1 ano não é a mesma que a diferença entre a idade de 1-2.

Csgillespie 12/10/10

11

@landroni É brevemente redigido. Eu não diria que é ruim, exceto que provavelmente "por exemplo" foi planejado em vez de "por exemplo", eu entendo o uso de "aleatório" aqui no sentido de "independente e identicamente distribuído", que é realmente a suposição mais geral assumida por OLS. Em algumas situações, as pessoas assumem adicionalmente que essa distribuição subjacente comum é normal, mas isso não é estritamente necessário na prática ou na teoria: tudo o que é necessário é que as distribuições amostrais das estatísticas relevantes estejam próximas do normal.

whuber

10

$X$ $X$ $X$

$X$ $X$ $\sqrt[3]{X}$ rms $X$ $x$

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

$\sqrt[3]{X}$ $X$

Frank Harrell
fonte

E [Y | X] = f (X)

$E[Y|X] = f(X)$

9

Gostaria de responder à pergunta de user1690130 que foi deixada como comentário na primeira resposta em 26 de outubro de 12 e diz o seguinte: "E quanto a variáveis como densidade populacional em uma região ou a proporção de crianças e professores de cada distrito escolar ou da escola? número de homicídios por mil habitantes na população? Já vi professores tomarem o registro dessas variáveis. Não está claro para mim o porquê. Por exemplo, a taxa de homicídios já não é uma porcentagem? O registro alteraria a porcentagem de Por que a proporção de log de professor / criança seria preferida? "

Eu estava procurando responder a um problema semelhante e queria compartilhar o que meu antigo livro de estatísticas ( Jeffrey Wooldridge. 2006. Econometria Introdutória - Uma Abordagem Moderna, 4ª Edição. ). Wooldridge aconselha:

Variáveis que aparecem na forma de proporção ou porcentagem, como a taxa de desemprego, a taxa de participação em um plano de pensão, a porcentagem de estudantes que passam em um exame padronizado e a taxa de detenção por crimes denunciados - podem aparecer na forma original ou logarítmica , embora haja uma tendência a usá-los em formas de nível . Isso ocorre porque quaisquer coeficientes de regressão envolvendo a variável original - seja a variável dependente ou independente - terão uma interpretação da alteração do ponto percentual. Se usarmos, digamos, log ( desemprego ) em uma regressão, onde desemprego é a porcentagem de indivíduos desempregados, devemos ter muito cuidado em distinguir entre uma mudança de ponto percentual e uma mudança de porcentagem. Lembre-se, se estiver desempregadopassa de 8 para 9, é um aumento de um ponto percentual, mas um aumento de 12,5% em relação ao nível inicial de desemprego. Usar o log significa que estamos observando a variação percentual da taxa de desemprego: log (9) - log (8) = 0,118 ou 11,8%, que é a aproximação logarítmica do aumento real de 12,5%.

Com base nisso e no piggybanking no comentário anterior do whuber à pergunta de user1690130, eu evitaria usar o logaritmo de uma variável de densidade ou porcentagem para manter a interpretação simples, a menos que o uso do formulário de log produza uma grande desvantagem, como poder reduzir a assimetria da densidade ou variável de taxa.

Sannita
fonte

Frequentemente, para porcentagens (ou seja, proporções em (0,1), uma transformação de logit é usada. Isso ocorre porque dados proporcionais frequentemente violam a suposição de normalidade dos resíduos, de uma maneira que uma transformação de log não corrige.

colin

3

O argumento de Shane de que pegar o log para lidar com dados incorretos é bem aceito. Assim como o de Colin, em relação à importância dos resíduos normais. Na prática, acho que geralmente você pode obter resíduos normais se as variáveis de entrada e saída também forem relativamente normais. Na prática, isso significa observar a distribuição dos conjuntos de dados transformados e não transformados e garantir a si mesmos que eles se tornaram mais normais e / ou realizar testes de normalidade (por exemplo, testes Shapiro-Wilk ou Kolmogorov-Smirnov) e determinar se o resultado é mais normal. Interpretabilidade e tradição também são importantes. Por exemplo, na psicologia cognitiva, as transformações logarítmicas do tempo de reação são frequentemente usadas, no entanto, pelo menos para mim, a interpretação de uma RT logarítmica não é clara. Além disso,

russellpierce
fonte

2

As respostas serão reordenadas com base nos votos; portanto, tente não se referir a outras respostas.

Vebjorn Ljosa

4

Um teste de normalidade geralmente é muito grave. Muitas vezes, basta obter resíduos distribuídos simetricamente. (Na prática, os resíduos tendem a ter distribuições com picos fortes, em parte como um artefato de estimativa que eu suspeito e, portanto, serão testados como "significativamente" não-normais, independentemente de como se

reexprima

@ whuber: Concordo. Por isso, especifiquei "tornar-se mais normal". O objetivo deve ser observar a estatística do teste para alterações, em vez de uma decisão de aceitação / rejeição com base no valor-p do teste.

22813 russellpierce #

Deve-se SEMPRE consultar outras respostas, conforme apropriado!

abalter em

@abalter? Eu não sigo.

russellpierce 6/09

Na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais?

Respostas: