Pistas de que um problema é adequado para regressão linear

12

Estou aprendendo regressão linear usando Introdução à análise de regressão linear por Montgomery, Peck e Vining . Eu gostaria de escolher um projeto de análise de dados.

Penso ingênuo que a regressão linear é adequada apenas quando se suspeita que haja relações funcionais lineares entre variáveis ​​explicativas e a variável resposta. Mas poucas aplicações do mundo real parecem atender a esse critério. No entanto, a regressão linear é tão prevalente.

Em que facetas de um projeto um estatístico experiente estaria pensando se estivesse no meu lugar, procurando uma pergunta + dados que sejam adequados para a regressão linear.

cwackers
fonte
3
Compreendo que você esteja aprendendo uma técnica e queira saber onde ela funcionará. Mas, para estatísticos experientes (e cientistas estatisticamente preocupados), a situação é completamente oposta: há um problema e dados e, então, a questão é que tipo de modelos e métodos são a melhor escolha. Você verá que a regressão linear encontrada pela primeira vez é apenas um sabor; com a experiência, as pessoas ficam felizes em pular para a regressão de Poisson, regressão logit, etc. e até a linearidade dos parâmetros pode ser facilmente combinada com estruturas mais gerais.
Nick Cox
e de tempo claro mdels série quando as observações são potencialmente autocorrelacionados
IrishStat
3
Na realidade, os modelos lineares são usados ​​para a esquerda e para a direita, mesmo quando sabemos que o relacionamento não é linear. Pense em um modelo linear como uma aproximação de primeira ordem, como uma expansão multivariada de Taylor.
Aksakal

Respostas:

12

Penso ingênuo que a regressão linear é adequada apenas quando se suspeita que haja relações funcionais lineares entre variáveis ​​explicativas e a variável resposta. Mas poucas aplicações do mundo real parecem atender a esse critério.

Este não é um entendimento correto do que é "linear" na "regressão linear".

Não é a relação entre y e que assume-se de forma linear (embora todos os exemplos elementares provavelmente o enganem).x

O "linear" refere-se ao modelo linear nos parâmetros e nas relações não lineares entre y e alguns certamente podem ser modeladas dessa maneira.x

Há um exemplo com um único preditor aqui , mas os modelos curvilíneos são mais frequentemente ajustados como regressão múltipla, onde várias funções de um preditor (variável x, variável independente) podem ocorrer na regressão, e isso permite muita flexibilidade. Isso inclui regressão polinomial, por exemplo. Veja algumas discussões e exemplos aqui .

No entanto, se permitirmos que os preditores possam ser transformados para ajustar relações curvas, a linearidade nos parâmetros também corresponderá à linearidade desses preditores transformados.

Além disso, muitos problemas são quase lineares (pelo menos na faixa de valores considerada) ou são tão barulhentos que qualquer curvatura suave não é discernível, e uma variedade de modelos simples para um relacionamento crescente ou decrescente pode fazer - e, nesse caso, uma escolha linear pode ser adequada e a mais simples de ajustar e entender.

Em que facetas de um projeto um estatístico experiente estaria pensando se estivesse no meu lugar, procurando uma pergunta + dados que sejam adequados para a regressão linear.

A única vez em que eu poderia procurar um problema para aplicar a regressão seria quando eu estivesse tentando encontrar um bom exemplo para o ensino. Quando, na verdade, estou na posição de fazer um trabalho estatístico (em vez de explicá-lo ou ensiná-lo), escolho a metodologia que se adequa à questão de interesse (e às características dos dados), em vez de escolher os dados que se adequam ao método.

Imagine um carpinteiro, por exemplo. O carpinteiro não pega um porta-voz e diz "em que posso usar isso ?". Em vez disso, o carpinteiro tem um problema a resolver e, ao considerar as características do problema ("o que estou tentando fazer?" E "que tipo de madeira estou usando?" E assim por diante ...), determinadas ferramentas podem ser mais relevante que outros. Às vezes, as ferramentas disponíveis podem limitar ou orientar as escolhas (se você não tem um porta-voz, pode se contentar com outra coisa ... ou pode simplesmente comprar um porta-voz).

No entanto, vamos supor que você tenha um estatístico de bolso ajudando você e que esteja tentando encontrar um problema adequado à regressão linear. Em seguida, eles podem sugerir que você considere várias suposições de regressão e quando elas são importantes. Vou mencionar algumas coisas.

E(y|g(x))g(x)gx=xE(y|x)=a+bx

Se você é capaz de usar regressão múltipla, mesmo que isso não seja especialmente importante, uma vez que é possível usar (por exemplo) splines de regressão cúbica para se ajustar a relacionamentos bastante gerais.

Eu sugiro que você evite os dados ao longo do tempo, a menos que entenda os problemas da regressão falsa; fique com problemas transversais.

xx

x

Se você estiver interessado em testes de hipóteses, intervalos de confiança ou intervalos de predição, talvez sejam necessárias mais premissas de regressão usuais (mas existem alternativas que não fazem essas premissas e, em alguns casos, pelo menos algumas das premissas não podem seja particularmente importante de qualquer maneira).

Portanto, pelo menos uma coisa que você deve estar ciente é de quais são as suposições feitas ao derivar os procedimentos inferenciais que você está usando e qual a importância deles no seu problema específico (por exemplo, ao executar os testes de hipóteses habituais, normalidade é uma suposição, mas em amostras grandes essa suposição pode não ser importante; por outro lado, a suposição de variação constante pode ser mais um problema).

Há várias postagens que discutem suposições de regressão, e algumas postagens que discutem quando elas precisam ser feitas, o quanto elas podem ser importantes e até que ordem as considerar.

Glen_b -Reinstate Monica
fonte
Boa resposta, mas acho que não responde completamente à pergunta. Em que facetas de um projeto um estatístico experiente estaria pensando se estivesse no meu lugar, procurando uma pergunta + dados que sejam adequados para a regressão linear. permanece sem resposta.
Dawny33
@ Dawny33 Eu definitivamente pretendo acrescentar mais coisas a isso mais tarde - algumas coisas surgiram enquanto eu estava digitando o que me impediu de escrever a resposta completa que eu pretendia originalmente; Só tive tempo de terminar a frase em que estava e agora não posso voltar a fazê-lo por um dia ou dois. Na verdade, nem tive tempo de corrigir todos os erros de digitação. (Enquanto isso, você não deve hesitar em postar uma resposta.) Por outro lado, salientar que a premissa da pergunta é falha pode levar o OP a querer perguntar coisas diferentes do que eles originalmente pretendiam (geralmente é o caso quando o A premissa central falha)
Glen_b -Reinstala Monica 15/15
Por exemplo, prevejo que uma nova pergunta que possa surgir seria "você tem um exemplo?".
Glen_b -Reinstala Monica
@Glen_b thanks. O "linear" refere-se ao modelo linear nos parâmetros . Desculpe se eu escrevi errado, não quis dizer o contrário. A palavra-chave estava funcional .
Cwackers
@Glen_b, eles podem sugerir que você considere várias suposições de regressão . Concordou novamente. Eu não fui explícito sobre isso, mas meu Q é mais sobre conhecimento de domínio. Estou me perguntando o que um estatístico experiente estaria procurando no sistema que está sendo considerado para análise LR, daí a minha proposta ingênua de que existem regressores linear e funcionalmente relacionados à resposta e cuja relação simultânea com a resposta é aditiva.
Cwackers
4

YYYYYX) bem. Ao longo de muitos anos de experiência, você verá que certas variáveis, como pressão arterial, tendem a se comportar bem em um modelo linear e outras (por exemplo, medições da química do sangue) não.

YY

Frank Harrell
fonte
Obrigado por apontar o aspecto de ser bem-comportado. Pensei nas transformações dos regressores, mas não na variável de resposta. No entanto, vejo agora como o posterior poderia ser usado para remodelar a distribuição de resíduos. Obrigado por preencher algumas das imagens. Um post muito útil.
Cwackers
3

@Glen_b deu uma resposta muito boa, mas, como observado, não chegou ao fim.

Então, quanto à sua última pergunta:

Acho que um estatístico experiente não faria essa pergunta. Como observa Glen, o problema determina as ferramentas a serem usadas, e não o contrário.

Se eu estivesse tentando aprender uma técnica como a regressão linear, usaria exemplos já trabalhados - mas que continham dados reais, e não dados criados para facilitar as coisas. Um livro como Modelagem de Regressão por Exemplo pode fornecer orientação.

No entanto, um dos primeiros passos para analisar um problema de regressão é decidir se a regressão linear é, de fato, adequada.

Peter Flom - Restabelece Monica
fonte
Acho que um estatístico experiente não faria essa pergunta. sim, foi por isso que qualifiquei meu Q com "no meu lugar". Muito obrigado pela recomendação do livro. Vou rastrear uma cópia. Uma série de exemplos ajudaria pelo menos a metade da história, com os contra exemplos sendo a outra metade.
Cwackers
Ahhh, uma citação! da página 2 da 4ª edição: Convidamos os leitores a pensar em questões (em suas próprias áreas de trabalho, pesquisa ou interesse) que podem ser tratadas usando análise de regressão.
Cwackers
0

Muitas respostas abordaram as premissas que precisam ser atendidas: linearidade nos resíduos, homogeneidade de variância na faixa do preditor, nenhum valor extremo que possa influenciar a linha de regressão e observações independentes. Gráficos residuais são bastante fáceis de produzir com a maioria dos programas de regressão e alguns pacotes fornecem alguns automaticamente (SAS).

Uma pessoa falou sobre transformar y. Essa é uma prática comum em algumas áreas, mas é uma prática que leva a resultados tendenciosos e possivelmente não interpretáveis. O viés aparece quando você tenta voltar a transformar os resultados na métrica original. Melhor mudar para outro tipo de regressão que tenha um padrão residual que corresponda às premissas distributivas do residual. Veja o capítulo 3 na Introdução à análise de dados categóricos de Agresti, onde ele introduz o conceito de links. Vários livros de regressão também introduzem o modelo linear generalizado.

Leslie
fonte
Não compartilho o pessimismo sobre transformação. Afinal, a transformação original é bastante arbitrária. Se você transformar e obter resíduos com uma distribuição simétrica, a retrotradução dos valores previstos será a mediana prevista na escala original. As medianas previstas são bastante úteis. Se você deseja obter meios previstos na escala original, pode usar o estimador de manchas.
Frank Harrell