Uivadores causados ​​pelo uso de regressão gradual

20

Estou bem ciente dos problemas da seleção stepwise / forward / backward nos modelos de regressão. Existem inúmeros casos de pesquisadores denunciando os métodos e apontando para melhores alternativas. Fiquei curioso para saber se existem histórias onde uma análise estatística:

  • usou regressão passo a passo;
  • tirou algumas conclusões importantes com base no modelo final
  • a conclusão estava errada, resultando em consequências negativas para o indivíduo, suas pesquisas ou sua organização

Meu pensamento sobre isso, se os métodos passo a passo são ruins, deve haver consequências no "mundo real" para usá-los.

probabilityislogic
fonte
2
Se você não encontrar nenhuma dessas histórias, pode ser porque a regressão gradual é usada principalmente em pesquisas básicas (ou pelo que eu percebo). Pesquisadores básicos geralmente não têm problemas por estarem errados, desde que não falsifiquem os dados ou algo assim.
Kodiologist
3
É muito usado na indústria e na sala de aula. Na pesquisa, os autores provavelmente não revelariam que o usavam. Na indústria, as duas principais razões são que: a) aqueles que estão fazendo isso não foram treinados em pesquisa, por exemplo, possuem graduação ou b) se formaram décadas atrás.
Aksakal
@ Aksakal Não aprender a começar, mas obter uma pele de ovelha de qualquer maneira é o problema, não o tempo decorrido. Exemplis grátis , eu. Fiz um curso de estatísticas por volta de 1971 e as usei pela primeira vez em uma publicação por volta de 2006.
Carl

Respostas:

1

Há mais de uma pergunta sendo feita. O mais restrito é pedir um exemplo de quando a regressão gradual causou danos porque foi realizada gradualmente. É claro que isso é verdade, mas só pode ser estabelecido inequivocamente quando os dados usados ​​para a regressão por etapas também são publicados, e alguém os reanalisa e publica uma correção revisada por pares com uma retração dos autores principais publicados. Fazer acusações em qualquer outro contexto arrisca uma ação legal e, se usarmos um conjunto de dados diferente, poderíamos suspeitar que um erro foi cometido, mas "as estatísticas nunca estão provando nada" e não poderíamos estabelecer que um erro foi cometido. feito; "além de uma dúvida razoável".

De fato, obtém-se frequentemente resultados diferentes, dependendo da eliminação gradual ou do desenvolvimento gradual de uma equação de regressão, o que sugere para nós que nenhuma das abordagens é suficientemente correta para recomendar seu uso. Claramente, algo mais está acontecendo, e isso nos leva a uma pergunta mais ampla, também feita acima, mas em forma de marcador, no valor de "Quais são os problemas com a regressão gradual, afinal? Essa é a pergunta mais útil para responder e tem o benefício adicional de que não terei um processo contra mim por responder.

Fazer isso da maneira correta para MLR, significa usar 1) unidades fisicamente corretas (veja abaixo) e 2) transformação de variável apropriada para melhores correlações e tipo de distribuição de erro (para homocedasticidade e fisicalidade) e 3) usar todas as permutações de combinações de variáveis, não passo a passo, todos eles , e 4) se alguém realiza diagnósticos de regressão exaustivos, evita a falta de combinações de variáveis ​​de VIF alto (colinearidade) que seriam enganosas, então a recompensa é uma melhor regressão.

Conforme prometido no item 1 acima, exploraremos as unidades corretas para um sistema físico. Como bons resultados da regressão dependem do tratamento correto das variáveis, precisamos estar atentos às dimensões usuais das unidades físicas e equilibrar nossas equações adequadamente. Além disso, para aplicações biológicas, a conscientização e a contabilização da dimensionalidade da escala alométrica é necessária .

GFR=kW1/4V2/3GFRW1=1443+23GFR

Carl
fonte
2
Isso parece descrever um problema com a regressão em geral, em vez da regressão por etapas especificamente.
Estatístico acidental
2
Sim, esses são aspectos da regressão a serem considerados em geral. Se eu entendi direito de onde vem a pergunta, ela é motivada pela regressão gradual que muitas vezes é denunciada em favor do uso de tipos como o LASSO, que não atendem às preocupações que você dá aqui.
Accidental Statistician
4
Agradeço sua franqueza e sua boa vontade neste assunto, Carl. Não negarei que a votação tenha seus problemas. A única maneira eficaz que conheço de alterar a votação em um post é alterar a resposta - para aprimorá-la tecnicamente, expandi-la ou comunicar as idéias de maneira diferente - e mesmo assim não há garantia de que ela obterá a resposta desejada (ou mesmo qualquer resposta!). Às vezes, esforços respeitosos feitos para entender os que rejeitam o pedido obterão informações que ajudem a todos a apreciar (e a votar) tais esforços para melhorar um post.
whuber
3
@Carl Eu acho que se você está recebendo votos negativos regulares, a primeira coisa a fazer é considerar como você pode melhorar suas postagens (e muitas vezes você tem comentários que sugerem melhorias). Falando por mim mesmo, mesmo que eu não concorde com um comentarista, acontece que eles frequentemente levantam questões que levam a uma resposta melhor de qualquer maneira. Eu direi que noto regularmente problemas com suas respostas que quase me levariam a rebaixá-lo. Onde tenho tempo para fazê-lo, tento deixar um comentário.
Glen_b -Reinstala Monica 23/11
3
Observe que muitos dos problemas da regressão por etapas - como problemas com estimativas com desvio de 0, erros padrão com desvio para 0, taxas de erro nominal do tipo I muito mais baixos que o real e uma variedade de outros problemas ainda estão presentes com todos os subconjuntos - - de fato, é um problema com quase qualquer forma de otimização (o capítulo 4 das estratégias de modelagem de regressão de Frank Harrell é uma referência útil). O encolhimento / regularização pode atenuar alguns desses problemas (especialmente a tendência da seleção de estimar o viés para fora) e a avaliação fora da amostra é uma ferramenta importante para muitos deles.
Glen_b -Reinstala Monica 24/11