Embora os méritos da seleção de modelos por etapas tenham sido discutidos anteriormente, não está claro para mim o que exatamente é " seleção de modelos por etapas " ou " regressão por etapas ". Eu pensei que tinha entendido, mas não tenho mais tanta certeza.
Meu entendimento é que esses dois termos são sinônimos (pelo menos em um contexto de regressão) e se referem à seleção do melhor conjunto de variáveis preditivas em um modelo "ótimo" ou "melhor" , dados os dados. (Você pode encontrar a página da Wikipedia aqui e outra visão geral potencialmente útil aqui .)
Com base em vários encadeamentos anteriores (por exemplo, aqui: algoritmos para seleção automática de modelo ), parece que a seleção de modelo por etapas é considerada um pecado fundamental. E, no entanto, parece ser usado o tempo todo, inclusive pelo que parecem ser estatísticos bem respeitados. Ou estou misturando a terminologia?
Minhas principais perguntas são:
Por "seleção de modelo por etapas" ou "regressão por etapas", queremos dizer:
A ) testes de hipóteses seqüenciais, como testes de razão de verossimilhança ou análise de valores de p? (Há um post relacionado aqui: Por que os valores p enganam após a execução de uma seleção gradual? ) É isso que significa isso e por que é ruim?
Ou
B ) também consideramos a seleção baseada na AIC (ou critério de informação semelhante) igualmente ruim? A partir da resposta em Algoritmos para seleção automática de modelo , parece que isso também é criticado. Por outro lado, Whittingham et al. (2006; pdf ) 1 parece sugerir que a seleção de variáveis com base na abordagem da teoria da informação (TI) é diferente da seleção gradual (e parece ser uma abordagem válida) ...?E esta é a fonte de toda a minha confusão.
Para acompanhar, se a seleção baseada na AIC se enquadrar em "stepwise" e for considerada inadequada, aqui estão algumas perguntas adicionais:
Se essa abordagem está errada, por que é ensinada em livros didáticos, cursos universitários etc.? Tudo isso está errado?
Quais são as boas alternativas para selecionar quais variáveis devem permanecer no modelo? Encontrei recomendações para usar conjuntos de dados de validação cruzada e teste de treinamento e o LASSO.
Acho que todos podem concordar que jogar indiscriminadamente todas as variáveis possíveis em um modelo e fazer a seleção gradual é problemático. Certamente, algum julgamento sensato deve guiar o que entra inicialmente. Mas e se já começarmos com um número limitado de possíveis variáveis preditivas baseadas em algum conhecimento (digamos biológico), e todos esses preditores podem estar explicando nossa resposta? Essa abordagem de seleção de modelos ainda seria falha? Também reconheço que a seleção do "melhor" modelo pode não ser apropriada se os valores da AIC entre os diferentes modelos forem muito semelhantes (e a inferência multi-modelo pode ser aplicada nesses casos). Mas a questão subjacente ao uso da seleção gradual baseada na AIC ainda é problemática?
Se estamos procurando ver quais variáveis parecem explicar a resposta e de que maneira, por que essa abordagem está errada, pois sabemos que "todos os modelos estão errados, mas alguns são úteis"?
1. Whittingham, MJ, Stephens, Pensilvânia, Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? Jornal de Ecologia Animal, 75, pp. 1182-1189.
Respostas:
2) Porque a educação estatística é realmente ruim. Para dar apenas um exemplo: até onde eu sei da minha própria educação, aparentemente é considerado uma parte essencial do ensino de estatística para os profissionais de psicologia dizer aos alunos que usem a correção de Bessel para obter estimativas imparciais da DS da população. É verdade que a correção de Bessel torna a estimativa da variação imparcial, mas é fácil provar que a estimativa do DP ainda é tendenciosa. Melhor ainda, a correção de Bessel pode aumentar o MSE dessas estimativas.
3) A seleção variável é praticamente um campo em si. A validação cruzada e as divisões de teste de trem são maneiras de avaliar um modelo, possivelmente após a seleção de recursos; eles próprios não fornecem sugestões para quais recursos usar. O laço é frequentemente uma boa escolha. Então, é o melhor subconjunto.
4) Na minha opinião, ainda não faz sentido usar (b), especialmente quando você pode fazer outra coisa em (c), como usar AIC. Não tenho objeções à seleção gradual baseada na AIC, mas esteja ciente de que ela será sensível à amostra (em particular, como as amostras crescem arbitrariamente grandes, a AIC, como o laço, sempre escolhe o modelo mais complexo), então não ' apresentar a seleção do modelo em si como se fosse uma conclusão generalizável.
Por fim, se você quiser observar os efeitos de todas as variáveis, precisará incluir todas as variáveis e, se sua amostra for muito pequena para isso, precisará de uma amostra maior. Lembre-se, hipóteses nulas nunca são verdadeiras na vida real. Não haverá muitas variáveis associadas a um resultado e muitas outras variáveis que não estão . Toda variável será associada ao resultado - as perguntas são em que grau, em que direção, em que interações com outras variáveis, etc.
fonte
Em relação ao stepwise vs. AIC
Stepwise é um termo que descreve a maneira como uma sequência de modelos é construída e, possivelmente, a maneira como um modelo é selecionado dentro da sequência.
Enquanto isso,
AIC pode ser aplicada para selecionar um modelo de um conjunto de candidatos. Pode ser usado como critério de seleção na seleção gradual, mas não apenas.
Portanto, stepwise e AIC são dois aspectos diferentes da seleção de modelos que podem ser usados juntos ou separadamente, e dependendo disso e de outras considerações pode ou não ser apropriado.
fonte