Estou aprendendo regressão linear usando Introdução à análise de regressão linear por Montgomery, Peck e Vining . Eu gostaria de escolher um projeto de análise de dados.
Penso ingênuo que a regressão linear é adequada apenas quando se suspeita que haja relações funcionais lineares entre variáveis explicativas e a variável resposta. Mas poucas aplicações do mundo real parecem atender a esse critério. No entanto, a regressão linear é tão prevalente.
Em que facetas de um projeto um estatístico experiente estaria pensando se estivesse no meu lugar, procurando uma pergunta + dados que sejam adequados para a regressão linear.
Respostas:
Este não é um entendimento correto do que é "linear" na "regressão linear".
Não é a relação entrey e que assume-se de forma linear (embora todos os exemplos elementares provavelmente o enganem).x
O "linear" refere-se ao modelo linear nos parâmetros e nas relações não lineares entrey e alguns certamente podem ser modeladas dessa maneira.x
Há um exemplo com um único preditor aqui , mas os modelos curvilíneos são mais frequentemente ajustados como regressão múltipla, onde várias funções de um preditor (variável x, variável independente) podem ocorrer na regressão, e isso permite muita flexibilidade. Isso inclui regressão polinomial, por exemplo. Veja algumas discussões e exemplos aqui .
No entanto, se permitirmos que os preditores possam ser transformados para ajustar relações curvas, a linearidade nos parâmetros também corresponderá à linearidade desses preditores transformados.
Além disso, muitos problemas são quase lineares (pelo menos na faixa de valores considerada) ou são tão barulhentos que qualquer curvatura suave não é discernível, e uma variedade de modelos simples para um relacionamento crescente ou decrescente pode fazer - e, nesse caso, uma escolha linear pode ser adequada e a mais simples de ajustar e entender.
A única vez em que eu poderia procurar um problema para aplicar a regressão seria quando eu estivesse tentando encontrar um bom exemplo para o ensino. Quando, na verdade, estou na posição de fazer um trabalho estatístico (em vez de explicá-lo ou ensiná-lo), escolho a metodologia que se adequa à questão de interesse (e às características dos dados), em vez de escolher os dados que se adequam ao método.
Imagine um carpinteiro, por exemplo. O carpinteiro não pega um porta-voz e diz "em que posso usar isso ?". Em vez disso, o carpinteiro tem um problema a resolver e, ao considerar as características do problema ("o que estou tentando fazer?" E "que tipo de madeira estou usando?" E assim por diante ...), determinadas ferramentas podem ser mais relevante que outros. Às vezes, as ferramentas disponíveis podem limitar ou orientar as escolhas (se você não tem um porta-voz, pode se contentar com outra coisa ... ou pode simplesmente comprar um porta-voz).
No entanto, vamos supor que você tenha um estatístico de bolso ajudando você e que esteja tentando encontrar um problema adequado à regressão linear. Em seguida, eles podem sugerir que você considere várias suposições de regressão e quando elas são importantes. Vou mencionar algumas coisas.
Se você é capaz de usar regressão múltipla, mesmo que isso não seja especialmente importante, uma vez que é possível usar (por exemplo) splines de regressão cúbica para se ajustar a relacionamentos bastante gerais.
Eu sugiro que você evite os dados ao longo do tempo, a menos que entenda os problemas da regressão falsa; fique com problemas transversais.
Se você estiver interessado em testes de hipóteses, intervalos de confiança ou intervalos de predição, talvez sejam necessárias mais premissas de regressão usuais (mas existem alternativas que não fazem essas premissas e, em alguns casos, pelo menos algumas das premissas não podem seja particularmente importante de qualquer maneira).
Portanto, pelo menos uma coisa que você deve estar ciente é de quais são as suposições feitas ao derivar os procedimentos inferenciais que você está usando e qual a importância deles no seu problema específico (por exemplo, ao executar os testes de hipóteses habituais, normalidade é uma suposição, mas em amostras grandes essa suposição pode não ser importante; por outro lado, a suposição de variação constante pode ser mais um problema).
Há várias postagens que discutem suposições de regressão, e algumas postagens que discutem quando elas precisam ser feitas, o quanto elas podem ser importantes e até que ordem as considerar.
fonte
fonte
@Glen_b deu uma resposta muito boa, mas, como observado, não chegou ao fim.
Então, quanto à sua última pergunta:
Acho que um estatístico experiente não faria essa pergunta. Como observa Glen, o problema determina as ferramentas a serem usadas, e não o contrário.
Se eu estivesse tentando aprender uma técnica como a regressão linear, usaria exemplos já trabalhados - mas que continham dados reais, e não dados criados para facilitar as coisas. Um livro como Modelagem de Regressão por Exemplo pode fornecer orientação.
No entanto, um dos primeiros passos para analisar um problema de regressão é decidir se a regressão linear é, de fato, adequada.
fonte
Muitas respostas abordaram as premissas que precisam ser atendidas: linearidade nos resíduos, homogeneidade de variância na faixa do preditor, nenhum valor extremo que possa influenciar a linha de regressão e observações independentes. Gráficos residuais são bastante fáceis de produzir com a maioria dos programas de regressão e alguns pacotes fornecem alguns automaticamente (SAS).
Uma pessoa falou sobre transformar y. Essa é uma prática comum em algumas áreas, mas é uma prática que leva a resultados tendenciosos e possivelmente não interpretáveis. O viés aparece quando você tenta voltar a transformar os resultados na métrica original. Melhor mudar para outro tipo de regressão que tenha um padrão residual que corresponda às premissas distributivas do residual. Veja o capítulo 3 na Introdução à análise de dados categóricos de Agresti, onde ele introduz o conceito de links. Vários livros de regressão também introduzem o modelo linear generalizado.
fonte