Estou bem ciente dos problemas da seleção stepwise / forward / backward nos modelos de regressão. Existem inúmeros casos de pesquisadores denunciando os métodos e apontando para melhores alternativas. Fiquei curioso para saber se existem histórias onde uma análise estatística:
- usou regressão passo a passo;
- tirou algumas conclusões importantes com base no modelo final
- a conclusão estava errada, resultando em consequências negativas para o indivíduo, suas pesquisas ou sua organização
Meu pensamento sobre isso, se os métodos passo a passo são ruins, deve haver consequências no "mundo real" para usá-los.
regression
stepwise-regression
history
probabilityislogic
fonte
fonte
Respostas:
Há mais de uma pergunta sendo feita. O mais restrito é pedir um exemplo de quando a regressão gradual causou danos porque foi realizada gradualmente. É claro que isso é verdade, mas só pode ser estabelecido inequivocamente quando os dados usados para a regressão por etapas também são publicados, e alguém os reanalisa e publica uma correção revisada por pares com uma retração dos autores principais publicados. Fazer acusações em qualquer outro contexto arrisca uma ação legal e, se usarmos um conjunto de dados diferente, poderíamos suspeitar que um erro foi cometido, mas "as estatísticas nunca estão provando nada" e não poderíamos estabelecer que um erro foi cometido. feito; "além de uma dúvida razoável".
De fato, obtém-se frequentemente resultados diferentes, dependendo da eliminação gradual ou do desenvolvimento gradual de uma equação de regressão, o que sugere para nós que nenhuma das abordagens é suficientemente correta para recomendar seu uso. Claramente, algo mais está acontecendo, e isso nos leva a uma pergunta mais ampla, também feita acima, mas em forma de marcador, no valor de "Quais são os problemas com a regressão gradual, afinal? Essa é a pergunta mais útil para responder e tem o benefício adicional de que não terei um processo contra mim por responder.
Fazer isso da maneira correta para MLR, significa usar 1) unidades fisicamente corretas (veja abaixo) e 2) transformação de variável apropriada para melhores correlações e tipo de distribuição de erro (para homocedasticidade e fisicalidade) e 3) usar todas as permutações de combinações de variáveis, não passo a passo, todos eles , e 4) se alguém realiza diagnósticos de regressão exaustivos, evita a falta de combinações de variáveis de VIF alto (colinearidade) que seriam enganosas, então a recompensa é uma melhor regressão.
Conforme prometido no item 1 acima, exploraremos as unidades corretas para um sistema físico. Como bons resultados da regressão dependem do tratamento correto das variáveis, precisamos estar atentos às dimensões usuais das unidades físicas e equilibrar nossas equações adequadamente. Além disso, para aplicações biológicas, a conscientização e a contabilização da dimensionalidade da escala alométrica é necessária .
fonte