Quais são alguns dos equívocos mais comuns sobre regressão linear?

70

Estou curioso, para aqueles de vocês com vasta experiência em colaborar com outros pesquisadores, quais são alguns dos conceitos errôneos mais comuns sobre regressão linear que você encontra?

Eu acho que pode ser um exercício útil pensar antecipadamente sobre equívocos comuns, a fim de

  1. Antecipe os erros das pessoas e seja capaz de articular com sucesso por que alguns equívocos estão incorretos

  2. Perceba se estou abrigando alguns equívocos!

Alguns exemplos básicos que posso pensar:

Variáveis ​​independentes / dependentes devem ser normalmente distribuídas

As variáveis ​​devem ser padronizadas para uma interpretação precisa

Alguma outra?

Todas as respostas são bem-vindas.

ST21
fonte
5
Provavelmente isso deve tornar a CW uma vez que convida a uma lista de possibilidades e será difícil dizer que uma é objetivamente a 'resposta correta'.
gung - Restabelece Monica
Muitas pessoas que conheço ainda insistem em realizar linearizações em seus dados e deixar assim, mesmo quando o ambiente de computação que eles usam tem um bom suporte para a regressão não linear. (Os linearizações são, naturalmente, útil como pontos de partida para os ajustes não-lineares, mas essas pessoas nem sequer percebem isso.)
JM não é um estatístico
11
@gung: O Wiki da Comunidade ainda é uma coisa? Principalmente reprovada em toda a rede , a CW nunca se propôs a fornecer perguntas marginais e amplamente solicitadas na lista grande para sair do cartão sem prisão, ou roubar pessoas da reputação que poderiam ter ganhado se a pergunta estivesse no tópico em primeiro lugar. A única maneira de você colocar isso em uma pergunta é se você pedir a um moderador.
Robert Harvey
11
Se Deus tivesse tornado o mundo linear, não haveria regressão não linear.
Mark L. Stone
11
@RobertHarvey: Sim, ainda existe muita coisa no CrossValidated (na minha opinião, infelizmente). Tivemos algumas discussões metafóricas sobre o assunto ( por exemplo, essa ), mas o status quo atual é que o status da CW está sendo aplicado em todas as perguntas baseadas em opinião ou na grande lista que são consideradas no tópico o suficiente para permanecer em aberto.
Ameba diz Reinstate Monica

Respostas:

38

Falsa premissa: A significa que não há uma relação forte entre DV e IV. β^0
Os relacionamentos funcionais não lineares são abundantes, e, no entanto, os dados produzidos por muitos desses relacionamentos frequentemente produzem declives quase nulos, se alguém assumir que o relacionamento deve ser linear ou até aproximadamente linear.

De maneira semelhante, em outra premissa falsa, os pesquisadores geralmente assumem - possivelmente porque muitos livros de introdução à regressão ensinam - que um "testa a não linearidade", construindo uma série de regressões do DV em expansões polinomiais do IV (por exemplo, , seguido de , seguido porYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+εetc.). Assim como a linha reta não pode muito bem representar uma relação funcional não linear entre DV e IV, uma parábola não pode muito bem representar literalmente um número infinito de relações não lineares (por exemplo, sinusóides, cicloides, funções de passo, efeitos de saturação, curvas-s, etc. ad infinitum ) Em vez disso, pode-se adotar uma abordagem de regressão que não assume nenhuma forma funcional específica (por exemplo, smoothers da linha de execução, GAMs, etc.).

Uma terceira premissa falsa é que aumentar o número de parâmetros estimados necessariamente resulta em uma perda de poder estatístico. Isso pode ser falso quando o relacionamento verdadeiro não é linear e requer vários parâmetros para estimar (por exemplo, uma função "stick quebrado" requer não apenas os termos de interceptação e inclinação de uma linha reta, mas requer um ponto em que a inclinação muda e quanto inclinação muda por estimativas também): os resíduos de um modelo mal especificado (por exemplo, uma linha reta) podem crescer bastante (em relação a uma relação funcional adequadamente especificada), resultando em uma menor probabilidade de rejeição e intervalos de confiança e intervalos de previsão mais amplos (além de estimativas serem tendenciosas) .

Alexis
fonte
4
(+1) Quibbles: (1) Eu acho que nem os textos introdutórios sugerem que todas as curvas são funções polinomiais, e sim que elas podem ser aproximadas o suficiente em um determinado intervalo por funções polinomiais. Assim, eles se enquadram na classe de "abordagens de regressão que não assumem nenhuma forma funcional específica", governada por um "hiperparâmetro" que especifica a wiggliness: o espaço para o loess, o não. nós para regressão em uma base spline, o grau de regressão em uma base polinomial. (Eu não estou agitando uma bandeira para polinômios - é sabido que eles tendem a flail ao redor nas extremidades mais do que gostaríamos -, ...
Scortchi - Reintegrar Monica
2
... apenas dando a eles o que lhes é devido.) (2) Um senoide pode muito bem ser adequado como tal, dentro da estrutura do modelo linear; um efeito de saturação usando um modelo não linear (uma hipérbole retangular, por exemplo); & c. É claro que você não disse o contrário, mas talvez valha a pena ressaltar que, se você souber que há um ciclo ou uma assíntota, aplicar essas restrições em seu modelo será útil.
Scortchi - Restabelece Monica
2
@ Scortchi Não concordo mais! (De fato, dado um número infinito de polinômios, qualquer função pode ser perfeitamente representada.) Tinha como objetivo conciso. :)
Alexis
2
@Alexis Tente aproximar a função base 13 de Conway por polinômios. :)
Solomonoff's Secret
11
Ou ...χQ
S. Kolassa - Restabelece Monica
22

É muito comum supor que apenas dados estão sujeitos a erro de medição (ou pelo menos, que este é o único erro que consideraremos). Mas isso ignora a possibilidade - e as consequências - de erro nas medições . Isso pode ser particularmente agudo em estudos observacionais em que as variáveis não estão sob controle experimental.yxx

Diluição de regressão ou atenuação de regressão é o fenômeno reconhecido por Spearman (1904), segundo o qual a inclinação de regressão estimada na regressão linear simples é enviesada em direção a zero pela presença de erro de medição na variável independente. Suponha que a inclinação real seja positiva - o efeito de tremer ascoordenadasdos pontos(talvez mais facilmente visualizadas como "borrar" os pontos horizontalmente) é tornar a linha de regressão menos íngreme. Intuitivamente, os pontos com umgrandeagora são mais propensos a ocorrer devido a um erro de medição positivo, enquanto ovalor deé mais provável de refletir o valor verdadeiro (sem erros) dee, portanto, menor do que a linha verdadeira seria para o observadoxxyxx .

Em modelos mais complexos, o erro de medição nas variáveis pode produzir efeitos mais complicados nas estimativas de parâmetros. Existem erros nos modelos de variáveis que levam em consideração esse erro. Spearman sugeriu um fator de correção para desatenuar os coeficientes de correlação bivariada e outros fatores de correção foram desenvolvidos para situações mais sofisticadas. No entanto, essas correções podem ser difíceis - particularmente no caso multivariado e na presença de fatores de confusão - e pode ser controverso se a correção é uma melhoria genuína, ver, por exemplo, Smith e Phillips (1996).x

Portanto, suponho que sejam dois conceitos errados pelo preço de um - por um lado, é um erro pensar que a maneira como escrevemos significa "todo o erro está no " e ignora o próprio possibilidade fisicamente real de erros de medição nas variáveis ​​independentes. Por outro lado, pode ser desaconselhável aplicar cegamente "correções" para erros de medição em todas as situações como uma resposta instintiva (embora possa ser uma boa idéia tomar medidas para reduzir o erro de medição em primeiro lugar) .yy=Xβ+εy

(Eu provavelmente também deveria vincular a alguns outros modelos de erro em variáveis ​​comuns, em ordem cada vez mais geral: regressão ortogonal , regressão de Deming e total de mínimos quadrados .)

Referências

Silverfish
fonte
Na mesma nota: esse é um motivo para o uso da técnica chamada "total mínimo de quadrados" ou "regressão ortogonal" (dependendo da referência que você está lendo); é significativamente mais complicado do que os mínimos quadrados simples, mas vale a pena fazer se todos os seus pontos estiverem contaminados com erro.
JM não é um estatístico
@JM Obrigado - sim, na verdade eu pretendia colocar um link para o TLS, mas me distraí com o artigo de Smith e Phillips!
Silverfish
2
+1 Excelente adição a este tópico. Eu sempre considerei modelos de EIV em meu trabalho. No entanto, para além da sua complexidade ou dependência de conhecimento do "rácios de erro", não é uma questão mais conceitual a considerar: Muitos regressões, especialmente no aprendizado supervisionado ou previsão, quer se relacionar observados preditores para observados resultados. Modelos EIV, por outro lado, tentar identificar a relação subjacente entre a média preditor e significa resposta ... uma pergunta ligeiramente diferente.
2
Assim, o que se chamaria "diluição" da regressão "verdadeira" (em um contexto científico) seria chamado "ausência de utilidade preditiva" ou algo parecido em um contexto de previsão.
21

Existem alguns mal-entendidos padrão que se aplicam neste contexto, bem como em outros contextos estatísticos: por exemplo, o significado dos valores de , inferências incorretas da causalidade etc. p

Alguns mal-entendidos que considero específicos para a regressão múltipla são:

  1. Pensando que a variável com maior coeficiente estimado e / ou menor valor é 'mais importante'. p
  2. Pensar que adicionar mais variáveis ​​ao modelo o deixa "mais perto da verdade". Por exemplo, a inclinação de uma regressão simples de em pode não ser a verdadeira relação direta entre e , mas se eu adicionar as variáveis , esse coeficiente será uma melhor representação da verdadeira relação e se eu adicionar , será ainda melhor que isso. YXXYZ1,,Z5Z6,,Z20
- Reinstate Monica
fonte
12
Coisa boa. Essa resposta pode ser ainda mais útil se explicar por que os dois estão errados e o que se deve fazer?
DW
14

Eu diria que o primeiro que você lista é provavelmente o mais comum - e talvez o mais amplamente ensinado dessa maneira - das coisas que claramente são vistas como erradas, mas aqui estão algumas outras que são menos claras em algumas situações ( se eles realmente se aplicam), mas podem impactar ainda mais análises e talvez mais a sério. Geralmente, eles nunca são mencionados quando o assunto da regressão é introduzido.

  • Tratar como amostras aleatórias da população de conjuntos de observações de interesse que não podem ser próximas de representativas (e muito menos amostradas aleatoriamente). [Alguns estudos poderiam ser vistos como algo mais próximo de amostras de conveniência]

  • Com os dados observacionais, simplesmente ignorando as conseqüências de deixar de fora importantes direcionadores do processo que certamente influenciariam as estimativas dos coeficientes das variáveis ​​incluídas (em muitos casos, mesmo que provavelmente mudem de sinal), sem tentar considerar formas de lidar com eles (seja por ignorância do problema ou simplesmente por desconhecerem que tudo pode ser feito). [Algumas áreas de pesquisa têm esse problema mais do que outras, seja por causa dos tipos de dados coletados ou porque as pessoas em algumas áreas de aplicação têm maior probabilidade de serem ensinadas sobre o assunto.]

  • Regressão espúria (principalmente com dados coletados ao longo do tempo). [Mesmo quando as pessoas sabem que isso acontece, há outro equívoco comum de que simplesmente diferenciar o suposto estacionário é suficiente para evitar completamente o problema.]

É claro que existem muitos outros (tratar como dados independentes que quase certamente serão correlacionados em série ou mesmo integrados pode ser tão comum, por exemplo).

Você pode perceber que os estudos observacionais dos dados coletados ao longo do tempo podem ser atingidos por todos eles de uma vez ... mas esse tipo de estudo é muito comum em muitas áreas de pesquisa em que a regressão é uma ferramenta padrão. Como eles podem chegar à publicação sem que um único revisor ou editor saiba sobre pelo menos um deles e pelo menos exija algum nível de isenção de responsabilidade nas conclusões continua me preocupando.

A estatística está repleta de problemas de resultados irreprodutíveis quando se lida com experimentos cuidadosamente controlados (quando combinados com análises talvez não tão cuidadosamente controladas); portanto, assim que alguém se afasta desses limites, quão pior deve ser a situação da reprodutibilidade?

Glen_b
fonte
6
Intimamente relacionado a alguns de seus pontos, pode estar a idéia de que "apenas dados estão sujeitos a erro de medição" (ou pelo menos "este é o único erro que consideraremos"). Não tenho certeza se isso merece a atenção de todos aqui, mas certamente é muito comum ignorar a possibilidade - e as consequências - de erro aleatório nas variáveis . yx
Silverfish
2
@ Silverfish Concordo totalmente com você.
Mark L. Stone
@Silverfish é CW, então você deve se sentir livre para editar em uma adição adequada como essa.
Glen_b
@Silverfish há uma razão que eu já não adicioná-lo eu mesmo quando você mencionou ... Eu acho que, provavelmente, vale a pena uma resposta nova
Glen_b
12

Provavelmente eu não chamaria esses equívocos, mas talvez pontos comuns de confusão / problemas e, em alguns casos, problemas que os pesquisadores talvez não tenham conhecimento.

  • Multicolinearidade (incluindo o caso de mais variáveis ​​que pontos de dados)
  • Heteroscedasticidade
  • Se os valores das variáveis ​​independentes estão sujeitos a ruído
  • Como o dimensionamento (ou não) afeta a interpretação dos coeficientes
  • Como tratar dados de vários assuntos
  • Como lidar com correlações seriais (por exemplo, séries temporais)

No lado equivocado das coisas:

  • O que significa linearidade (por exemplo, é wrt não-linear , mas linear é o peso).y=ax2+bx+cx
  • Essa 'regressão' significa mínimos quadrados ordinários ou regressão linear
  • Que pesos baixos / altos implicam necessariamente relacionamentos fracos / fortes com a variável dependente
  • Essa dependência entre as variáveis ​​dependentes e independentes pode necessariamente ser reduzida para dependências em pares.
  • Essa alta qualidade de ajuste no conjunto de treinamento implica em um bom modelo (isto é, negligenciar o ajuste excessivo)
user20160
fonte
7

Na minha experiência, os alunos freqüentemente adotam a visão de que os erros ao quadrado (ou regressão OLS) são uma coisa inerentemente apropriada, precisa e geral para usar, ou são mesmo sem alternativa. Eu tenho visto frequentemente o OLS anunciado junto com as observações de que "dá maior peso a observações mais extremas / desviantes" e, na maioria das vezes, pelo menos está implícito que essa é uma propriedade desejável. Essa noção pode ser modificada posteriormente, quando o tratamento de outliers e abordagens robustas for introduzido, mas nesse ponto o dano está feito. Indiscutivelmente, o uso generalizado de erros ao quadrado tem historicamente mais a ver com sua conveniência matemática do que com alguma lei natural dos custos com erros no mundo real.

No geral, maior ênfase poderia ser colocada no entendimento de que a escolha da função de erro é um tanto arbitrária. Idealmente, qualquer escolha de penalidade dentro de um algoritmo deve ser guiada pela função de custo do mundo real correspondente associada a um erro em potencial (isto é, usando uma estrutura de tomada de decisão). Por que não estabelecer esse princípio primeiro e depois ver como podemos nos sair bem?

Benedict MJG
fonte
2
A escolha também depende da aplicação. O OLS é útil para ajustes algébricos do eixo y, mas menos para aplicações geométricas, onde o total de mínimos quadrados (ou alguma outra função de custo baseada na distância ortogonal) faz mais sentido.
Willie Wheeler
4

Outro equívoco comum é que o termo de erro (ou distúrbio na linguagem econométrica) e os resíduos são a mesma coisa.

O termo de erro é uma variável aleatória no modelo verdadeiro ou no processo de geração de dados , e geralmente é assumido que segue uma certa distribuição, enquanto os resíduos são os desvios dos dados observados do modelo ajustado. Como tal, os resíduos podem ser considerados estimativas dos erros.

Robert Long
fonte
Aposto que as pessoas se interessariam em explicar por que isso importa ou em que tipos de casos.
rolando2
4

O equívoco mais comum que encontro é que a regressão linear assume a normalidade dos erros. Não faz. A normalidade é útil em conexão com alguns aspectos da regressão linear, por exemplo, pequenas propriedades da amostra, como limites de confiança dos coeficientes. Mesmo para essas coisas, existem valores assintóticos disponíveis para distribuições não normais.

O segundo mais comum é um cluster de confusão com relação à endogeneidade, por exemplo, não ter cuidado com os loops de feedback. Se houver um loop de feedback de Y a X, é um problema.

Aksakal
fonte
4

Um erro que cometi é assumir uma simetria de X e Y no OLS. Por exemplo, se eu assumir uma relação linear com aeb dada pelo meu software usando OLS, acredito que assumir X como uma função de Y dará ao OLS os coeficientes: está errado.

Y=aX+b
X=1aYba

Talvez isso também esteja relacionado à diferença entre OLS e o total mínimo de quadrados ou o primeiro componente principal.

Jf Parmentier
fonte
3

O que eu vi com frequência é um equívoco sobre a aplicabilidade da regressão linear em certos casos de uso, na prática.

Por exemplo, digamos que a variável na qual estamos interessados ​​é a contagem de algo (exemplo: visitantes no site) ou a proporção de algo (exemplo: taxas de conversão). Nesses casos, a variável pode ser melhor modelada usando funções de link como Poisson (contagens), Beta (proporções) etc. Portanto, usar o modelo generalizado com a função de link mais apropriada é mais adequado. Mas apenas porque a variável não é categórica, vi pessoas começando com uma regressão linear simples (função de link = identidade). Mesmo se desconsiderarmos as implicações de precisão, as suposições de modelagem são um problema aqui.

hssay
fonte
2

Aqui está um que eu acho que é frequentemente esquecido pelos pesquisadores:

  • Interação variável: os pesquisadores geralmente analisam betas isolados de preditores individuais e nem mesmo especificam termos de interação. Mas no mundo real as coisas interagem. Sem a especificação adequada de todos os termos de interação possíveis, você não sabe como seus "preditores" se envolvem para formar um resultado. E se você quiser ser diligente e especificar todas as interações, o número de preditores explodirá. Dos meus cálculos, você pode investigar apenas 4 variáveis ​​e suas interações com 100 sujeitos. Se você adicionar mais uma variável, poderá se ajustar demais com muita facilidade.
user4534898
fonte
0

Outro equívoco comum é que as estimativas (valores ajustados) não são invariantes a transformações, por exemplo

f(y^i)f(yi)^
em geral, onde , o valor de regressão ajustado com base nos seus coeficientes de regressão estimados.y^i=xiTβ^

Se é isso que você deseja para as funções monotônicas não necessariamente lineares, o que você deseja é uma regressão quantílica.f()

A igualdade acima é válida na regressão linear para funções lineares, mas funções não lineares (por exemplo, ) não são válidas. No entanto, isso vale para qualquer função monotônica na regressão quantílica.log()

Isso ocorre o tempo todo quando você faz uma transformação de log de seus dados, ajusta uma regressão linear e exponencia o valor ajustado e as pessoas lêem isso como a regressão. Essa não é a média, é a mediana (se as coisas forem realmente distribuídas normalmente em log).

Lucas Roberts
fonte