Estou curioso, para aqueles de vocês com vasta experiência em colaborar com outros pesquisadores, quais são alguns dos conceitos errôneos mais comuns sobre regressão linear que você encontra?
Eu acho que pode ser um exercício útil pensar antecipadamente sobre equívocos comuns, a fim de
Antecipe os erros das pessoas e seja capaz de articular com sucesso por que alguns equívocos estão incorretos
Perceba se estou abrigando alguns equívocos!
Alguns exemplos básicos que posso pensar:
Variáveis independentes / dependentes devem ser normalmente distribuídas
As variáveis devem ser padronizadas para uma interpretação precisa
Alguma outra?
Todas as respostas são bem-vindas.
Respostas:
Falsa premissa: A significa que não há uma relação forte entre DV e IV.β^≈0
Os relacionamentos funcionais não lineares são abundantes, e, no entanto, os dados produzidos por muitos desses relacionamentos frequentemente produzem declives quase nulos, se alguém assumir que o relacionamento deve ser linear ou até aproximadamente linear.
De maneira semelhante, em outra premissa falsa, os pesquisadores geralmente assumem - possivelmente porque muitos livros de introdução à regressão ensinam - que um "testa a não linearidade", construindo uma série de regressões do DV em expansões polinomiais do IV (por exemplo, , seguido de , seguido porY∼β0+βXX+ε Y∼β0+βXX+βX2X2+ε Y∼β0+βXX+βX2X2+βX3X3+ε etc.). Assim como a linha reta não pode muito bem representar uma relação funcional não linear entre DV e IV, uma parábola não pode muito bem representar literalmente um número infinito de relações não lineares (por exemplo, sinusóides, cicloides, funções de passo, efeitos de saturação, curvas-s, etc. ad infinitum ) Em vez disso, pode-se adotar uma abordagem de regressão que não assume nenhuma forma funcional específica (por exemplo, smoothers da linha de execução, GAMs, etc.).
Uma terceira premissa falsa é que aumentar o número de parâmetros estimados necessariamente resulta em uma perda de poder estatístico. Isso pode ser falso quando o relacionamento verdadeiro não é linear e requer vários parâmetros para estimar (por exemplo, uma função "stick quebrado" requer não apenas os termos de interceptação e inclinação de uma linha reta, mas requer um ponto em que a inclinação muda e quanto inclinação muda por estimativas também): os resíduos de um modelo mal especificado (por exemplo, uma linha reta) podem crescer bastante (em relação a uma relação funcional adequadamente especificada), resultando em uma menor probabilidade de rejeição e intervalos de confiança e intervalos de previsão mais amplos (além de estimativas serem tendenciosas) .
fonte
É muito comum supor que apenas dados estão sujeitos a erro de medição (ou pelo menos, que este é o único erro que consideraremos). Mas isso ignora a possibilidade - e as consequências - de erro nas medições . Isso pode ser particularmente agudo em estudos observacionais em que as variáveis não estão sob controle experimental.y x x
Diluição de regressão ou atenuação de regressão é o fenômeno reconhecido por Spearman (1904), segundo o qual a inclinação de regressão estimada na regressão linear simples é enviesada em direção a zero pela presença de erro de medição na variável independente. Suponha que a inclinação real seja positiva - o efeito de tremer ascoordenadasdos pontos(talvez mais facilmente visualizadas como "borrar" os pontos horizontalmente) é tornar a linha de regressão menos íngreme. Intuitivamente, os pontos com umgrandeagora são mais propensos a ocorrer devido a um erro de medição positivo, enquanto ovalor deé mais provável de refletir o valor verdadeiro (sem erros) dee, portanto, menor do que a linha verdadeira seria para o observadox x y x x .
Em modelos mais complexos, o erro de medição nas variáveis pode produzir efeitos mais complicados nas estimativas de parâmetros. Existem erros nos modelos de variáveis que levam em consideração esse erro. Spearman sugeriu um fator de correção para desatenuar os coeficientes de correlação bivariada e outros fatores de correção foram desenvolvidos para situações mais sofisticadas. No entanto, essas correções podem ser difíceis - particularmente no caso multivariado e na presença de fatores de confusão - e pode ser controverso se a correção é uma melhoria genuína, ver, por exemplo, Smith e Phillips (1996).x
Portanto, suponho que sejam dois conceitos errados pelo preço de um - por um lado, é um erro pensar que a maneira como escrevemos significa "todo o erro está no " e ignora o próprio possibilidade fisicamente real de erros de medição nas variáveis independentes. Por outro lado, pode ser desaconselhável aplicar cegamente "correções" para erros de medição em todas as situações como uma resposta instintiva (embora possa ser uma boa idéia tomar medidas para reduzir o erro de medição em primeiro lugar) .yy=Xβ+ε y
(Eu provavelmente também deveria vincular a alguns outros modelos de erro em variáveis comuns, em ordem cada vez mais geral: regressão ortogonal , regressão de Deming e total de mínimos quadrados .)
Referências
Smith, GD e Phillips, AN (1996). " Inflação em epidemiologia: 'a prova e medição da associação entre duas coisas' revisitadas ". British Medical Journal , 312 (7047), 1659-1661.
Spearman, C. (1904). "A prova e medição da associação entre duas coisas." American Journal of Psychology 15 : 72-101.
fonte
Existem alguns mal-entendidos padrão que se aplicam neste contexto, bem como em outros contextos estatísticos: por exemplo, o significado dos valores de , inferências incorretas da causalidade etc.p
Alguns mal-entendidos que considero específicos para a regressão múltipla são:
fonte
Eu diria que o primeiro que você lista é provavelmente o mais comum - e talvez o mais amplamente ensinado dessa maneira - das coisas que claramente são vistas como erradas, mas aqui estão algumas outras que são menos claras em algumas situações ( se eles realmente se aplicam), mas podem impactar ainda mais análises e talvez mais a sério. Geralmente, eles nunca são mencionados quando o assunto da regressão é introduzido.
Tratar como amostras aleatórias da população de conjuntos de observações de interesse que não podem ser próximas de representativas (e muito menos amostradas aleatoriamente). [Alguns estudos poderiam ser vistos como algo mais próximo de amostras de conveniência]
Com os dados observacionais, simplesmente ignorando as conseqüências de deixar de fora importantes direcionadores do processo que certamente influenciariam as estimativas dos coeficientes das variáveis incluídas (em muitos casos, mesmo que provavelmente mudem de sinal), sem tentar considerar formas de lidar com eles (seja por ignorância do problema ou simplesmente por desconhecerem que tudo pode ser feito). [Algumas áreas de pesquisa têm esse problema mais do que outras, seja por causa dos tipos de dados coletados ou porque as pessoas em algumas áreas de aplicação têm maior probabilidade de serem ensinadas sobre o assunto.]
Regressão espúria (principalmente com dados coletados ao longo do tempo). [Mesmo quando as pessoas sabem que isso acontece, há outro equívoco comum de que simplesmente diferenciar o suposto estacionário é suficiente para evitar completamente o problema.]
É claro que existem muitos outros (tratar como dados independentes que quase certamente serão correlacionados em série ou mesmo integrados pode ser tão comum, por exemplo).
Você pode perceber que os estudos observacionais dos dados coletados ao longo do tempo podem ser atingidos por todos eles de uma vez ... mas esse tipo de estudo é muito comum em muitas áreas de pesquisa em que a regressão é uma ferramenta padrão. Como eles podem chegar à publicação sem que um único revisor ou editor saiba sobre pelo menos um deles e pelo menos exija algum nível de isenção de responsabilidade nas conclusões continua me preocupando.
A estatística está repleta de problemas de resultados irreprodutíveis quando se lida com experimentos cuidadosamente controlados (quando combinados com análises talvez não tão cuidadosamente controladas); portanto, assim que alguém se afasta desses limites, quão pior deve ser a situação da reprodutibilidade?
fonte
Provavelmente eu não chamaria esses equívocos, mas talvez pontos comuns de confusão / problemas e, em alguns casos, problemas que os pesquisadores talvez não tenham conhecimento.
No lado equivocado das coisas:
fonte
Na minha experiência, os alunos freqüentemente adotam a visão de que os erros ao quadrado (ou regressão OLS) são uma coisa inerentemente apropriada, precisa e geral para usar, ou são mesmo sem alternativa. Eu tenho visto frequentemente o OLS anunciado junto com as observações de que "dá maior peso a observações mais extremas / desviantes" e, na maioria das vezes, pelo menos está implícito que essa é uma propriedade desejável. Essa noção pode ser modificada posteriormente, quando o tratamento de outliers e abordagens robustas for introduzido, mas nesse ponto o dano está feito. Indiscutivelmente, o uso generalizado de erros ao quadrado tem historicamente mais a ver com sua conveniência matemática do que com alguma lei natural dos custos com erros no mundo real.
No geral, maior ênfase poderia ser colocada no entendimento de que a escolha da função de erro é um tanto arbitrária. Idealmente, qualquer escolha de penalidade dentro de um algoritmo deve ser guiada pela função de custo do mundo real correspondente associada a um erro em potencial (isto é, usando uma estrutura de tomada de decisão). Por que não estabelecer esse princípio primeiro e depois ver como podemos nos sair bem?
fonte
Outro equívoco comum é que o termo de erro (ou distúrbio na linguagem econométrica) e os resíduos são a mesma coisa.
O termo de erro é uma variável aleatória no modelo verdadeiro ou no processo de geração de dados , e geralmente é assumido que segue uma certa distribuição, enquanto os resíduos são os desvios dos dados observados do modelo ajustado. Como tal, os resíduos podem ser considerados estimativas dos erros.
fonte
O equívoco mais comum que encontro é que a regressão linear assume a normalidade dos erros. Não faz. A normalidade é útil em conexão com alguns aspectos da regressão linear, por exemplo, pequenas propriedades da amostra, como limites de confiança dos coeficientes. Mesmo para essas coisas, existem valores assintóticos disponíveis para distribuições não normais.
O segundo mais comum é um cluster de confusão com relação à endogeneidade, por exemplo, não ter cuidado com os loops de feedback. Se houver um loop de feedback de Y a X, é um problema.
fonte
Um erro que cometi é assumir uma simetria de X e Y no OLS. Por exemplo, se eu assumir uma relação linear com aeb dada pelo meu software usando OLS, acredito que assumir X como uma função de Y dará ao OLS os coeficientes: está errado.
Talvez isso também esteja relacionado à diferença entre OLS e o total mínimo de quadrados ou o primeiro componente principal.
fonte
O que eu vi com frequência é um equívoco sobre a aplicabilidade da regressão linear em certos casos de uso, na prática.
Por exemplo, digamos que a variável na qual estamos interessados é a contagem de algo (exemplo: visitantes no site) ou a proporção de algo (exemplo: taxas de conversão). Nesses casos, a variável pode ser melhor modelada usando funções de link como Poisson (contagens), Beta (proporções) etc. Portanto, usar o modelo generalizado com a função de link mais apropriada é mais adequado. Mas apenas porque a variável não é categórica, vi pessoas começando com uma regressão linear simples (função de link = identidade). Mesmo se desconsiderarmos as implicações de precisão, as suposições de modelagem são um problema aqui.
fonte
Aqui está um que eu acho que é frequentemente esquecido pelos pesquisadores:
fonte
Outro equívoco comum é que as estimativas (valores ajustados) não são invariantes a transformações, por exemplo
Se é isso que você deseja para as funções monotônicas não necessariamente lineares, o que você deseja é uma regressão quantílica.f(⋅)
A igualdade acima é válida na regressão linear para funções lineares, mas funções não lineares (por exemplo, ) não são válidas. No entanto, isso vale para qualquer função monotônica na regressão quantílica.log(⋅)
Isso ocorre o tempo todo quando você faz uma transformação de log de seus dados, ajusta uma regressão linear e exponencia o valor ajustado e as pessoas lêem isso como a regressão. Essa não é a média, é a mediana (se as coisas forem realmente distribuídas normalmente em log).
fonte