O que exatamente é a "seleção de modelo por etapas"?

8

Embora os méritos da seleção de modelos por etapas tenham sido discutidos anteriormente, não está claro para mim o que exatamente é " seleção de modelos por etapas " ou " regressão por etapas ". Eu pensei que tinha entendido, mas não tenho mais tanta certeza.

Meu entendimento é que esses dois termos são sinônimos (pelo menos em um contexto de regressão) e se referem à seleção do melhor conjunto de variáveis ​​preditivas em um modelo "ótimo" ou "melhor" , dados os dados. (Você pode encontrar a página da Wikipedia aqui e outra visão geral potencialmente útil aqui .)

Com base em vários encadeamentos anteriores (por exemplo, aqui: algoritmos para seleção automática de modelo ), parece que a seleção de modelo por etapas é considerada um pecado fundamental. E, no entanto, parece ser usado o tempo todo, inclusive pelo que parecem ser estatísticos bem respeitados. Ou estou misturando a terminologia?

Minhas principais perguntas são:

  1. Por "seleção de modelo por etapas" ou "regressão por etapas", queremos dizer:
    A ) testes de hipóteses seqüenciais, como testes de razão de verossimilhança ou análise de valores de p? (Há um post relacionado aqui: Por que os valores p enganam após a execução de uma seleção gradual? ) É isso que significa isso e por que é ruim?
    Ou
    B ) também consideramos a seleção baseada na AIC (ou critério de informação semelhante) igualmente ruim? A partir da resposta em Algoritmos para seleção automática de modelo , parece que isso também é criticado. Por outro lado, Whittingham et al. (2006; pdf ) 1 parece sugerir que a seleção de variáveis ​​com base na abordagem da teoria da informação (TI) é diferente da seleção gradual (e parece ser uma abordagem válida) ...?

    E esta é a fonte de toda a minha confusão.

    Para acompanhar, se a seleção baseada na AIC se enquadrar em "stepwise" e for considerada inadequada, aqui estão algumas perguntas adicionais:

  2. Se essa abordagem está errada, por que é ensinada em livros didáticos, cursos universitários etc.? Tudo isso está errado?

  3. Quais são as boas alternativas para selecionar quais variáveis ​​devem permanecer no modelo? Encontrei recomendações para usar conjuntos de dados de validação cruzada e teste de treinamento e o LASSO.

  4. Acho que todos podem concordar que jogar indiscriminadamente todas as variáveis ​​possíveis em um modelo e fazer a seleção gradual é problemático. Certamente, algum julgamento sensato deve guiar o que entra inicialmente. Mas e se já começarmos com um número limitado de possíveis variáveis ​​preditivas baseadas em algum conhecimento (digamos biológico), e todos esses preditores podem estar explicando nossa resposta? Essa abordagem de seleção de modelos ainda seria falha? Também reconheço que a seleção do "melhor" modelo pode não ser apropriada se os valores da AIC entre os diferentes modelos forem muito semelhantes (e a inferência multi-modelo pode ser aplicada nesses casos). Mas a questão subjacente ao uso da seleção gradual baseada na AIC ainda é problemática?

    Se estamos procurando ver quais variáveis ​​parecem explicar a resposta e de que maneira, por que essa abordagem está errada, pois sabemos que "todos os modelos estão errados, mas alguns são úteis"?

1. Whittingham, MJ, Stephens, Pensilvânia, Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? Jornal de Ecologia Animal, 75, pp. 1182-1189.

Tilen
fonte
o AIC e o valor p são enganosos usando a regressão passo a passo! Você pode encontrar uma explicação intuitiva aqui com um exemplo de regressão passo a passo usando AIC aqui: metariat.wordpress.com/2016/12/19/...
Metariat
3
Você poderia esclarecer o que exatamente não está claro para você no tópico Algoritmos para seleção automática de modelo a que se refere ...? Parece que responde a todas as suas perguntas, dando uma resposta bastante detalhada. Respondendo à pergunta básica: a seleção do modelo passo a passo é fazer a regressão com vários preditores e, em seguida, eliminar um de cada vez (ou adicionar um de cada vez) com base em alguns critérios de melhoria do modelo até encontrar o "melhor" modelo.
Tim
1
@ Tim, desculpas pelo atraso na resposta. Bem, não, acho que não responde a todas as minhas perguntas e vários problemas permanecem obscuros (para mim). 1), eu queria esclarecer a terminologia, como várias fontes usam termos diferentes, então eu queria entender completamente se os termos aos quais estou me referindo são sinônimos ou não. 2) Embora eu possa entender a partir desse tópico que os problemas são os mesmos, independentemente dos critérios usados, há inconsistência na literatura. 3) ao ler artigos e livros, parece haver discordância sobre o que é apropriado e o que não é (ou quando).
Tilen
1
4) uma das minhas perguntas também foi por que isso ainda está sendo ensinado (por nomes aparentemente bem informados), se é considerado errado. Eu queria entender se isso é coisa do passado (mas não parece ser, dado o momento da publicação de certos livros), diferentes escolas de pensamento ou simplesmente ignorância. 5) Eu queria entender se essa abordagem está errada, mesmo que o conjunto inicial de variáveis ​​preditoras de candidatos já esteja limitado. Em outras palavras, meu interesse pessoal é encontrar um melhor conjunto de preditores, dado um conjunto já reduzido e bem pensado.
Tilen
1
Resumindo, mesmo que a discussão sobre os algoritmos para a seleção automática de modelos fosse muito informativa e útil, ela ainda me deixou com muitas perguntas e confusão.
Tilen

Respostas:

4

p- valores de coeficientes de regressão, calculados da maneira comum, são usados ​​para determinar quais covariáveis ​​são adicionadas ou removidas de um modelo, e esse processo é repetido várias vezes. Pode se referir a (a) uma variação específica deste procedimento, na qual variáveis ​​podem ser adicionadas ou removidas a qualquer passo (acho que isso é o que o SPSS chama de "stepwise"), ou pode se referir a (b) essa variação junto com outras variações como adicionar apenas variáveis ​​ou remover variáveis. Mais amplamente, "stepwise" pode ser usado para se referir a (c) qualquer procedimento no qual os recursos são adicionados ou removidos de um modelo de acordo com algum valor calculado toda vez que um recurso (ou conjunto de recursos) é adicionado ou removido.

p

2) Porque a educação estatística é realmente ruim. Para dar apenas um exemplo: até onde eu sei da minha própria educação, aparentemente é considerado uma parte essencial do ensino de estatística para os profissionais de psicologia dizer aos alunos que usem a correção de Bessel para obter estimativas imparciais da DS da população. É verdade que a correção de Bessel torna a estimativa da variação imparcial, mas é fácil provar que a estimativa do DP ainda é tendenciosa. Melhor ainda, a correção de Bessel pode aumentar o MSE dessas estimativas.

3) A seleção variável é praticamente um campo em si. A validação cruzada e as divisões de teste de trem são maneiras de avaliar um modelo, possivelmente após a seleção de recursos; eles próprios não fornecem sugestões para quais recursos usar. O laço é frequentemente uma boa escolha. Então, é o melhor subconjunto.

4) Na minha opinião, ainda não faz sentido usar (b), especialmente quando você pode fazer outra coisa em (c), como usar AIC. Não tenho objeções à seleção gradual baseada na AIC, mas esteja ciente de que ela será sensível à amostra (em particular, como as amostras crescem arbitrariamente grandes, a AIC, como o laço, sempre escolhe o modelo mais complexo), então não ' apresentar a seleção do modelo em si como se fosse uma conclusão generalizável.

Se estamos olhando para ver quais variáveis ​​parecem explicar a resposta e de que maneira

Por fim, se você quiser observar os efeitos de todas as variáveis, precisará incluir todas as variáveis ​​e, se sua amostra for muito pequena para isso, precisará de uma amostra maior. Lembre-se, hipóteses nulas nunca são verdadeiras na vida real. Não haverá muitas variáveis associadas a um resultado e muitas outras variáveis ​​que não estão . Toda variável será associada ao resultado - as perguntas são em que grau, em que direção, em que interações com outras variáveis, etc.

Kodiologist
fonte
Re (4): @gung tem 220 votos positivos por suas críticas aos procedimentos passo a passo em stats.stackexchange.com/questions/20836 , mas acho que essas críticas se aplicariam aos procedimentos baseados na AIC exatamente da mesma maneira que no valor-p- os baseados.
Ameba
@amoeba Os pontos numerados de Frank Harrell parecem se aplicar principalmente a (b) (e seu ponto 9 é uma vantagem, não uma desvantagem). A descrição de Gung de como selecção do modelo pode overfit é correto, mas que a validação de que modelo é para, e que o problema se aplica a todos os cenários de seleção de modelo
Kodiologist
3
Eu acho que a resposta de Gung, bem como os pontos de Frank citados, são sobre seleção gradual, sem qualquer validação de modelo externo. Claramente, se uma seleção gradual é colocada em um loop de validação cruzada, não há nenhum problema de princípio com ela, mesmo que seja baseado em valores-p. Se ele se ajustar demais, veremos isso no desempenho com validação cruzada. Críticas como "Ele produz valores ao quadrado R muito tendenciosos para serem altos" só fazem sentido se forem feitos sem validação cruzada.
Ameba
p
@ Kodiologist, obrigado pela resposta, é muito útil. 1) Os comentários que se seguiram foram uma revelação para mim: eu não havia percebido que toda essa discussão no outro segmento era baseada em uma premissa de não validação de modelo. Eu considerei a validação do modelo uma parte essencial em qualquer caso, independentemente do método de seleção de variáveis. 2) No que diz respeito ao mau ensino, ainda estou confuso, pois pessoas / universidades / livros aparentemente bem respeitados parecem ensiná-lo ou usá-lo. Por exemplo, Zuur et al. 2009 (modelos de efeitos mistos e extensões em ecologia com R), bem como outros (Faraway 2005, 2006, se não me engano).
Tilen 15/03/19
2

Em relação ao stepwise vs. AIC

Stepwise é um termo que descreve a maneira como uma sequência de modelos é construída e, possivelmente, a maneira como um modelo é selecionado dentro da sequência.

  • Na construção do modelo passo a passo , as variáveis ​​são adicionadas ou removidas uma a uma ou em grupos de acordo com alguma regra para definir qual das variáveis ​​deve / deve ser adicionada / removida. Isso está de acordo com o ponto de Kodiologist (c).
  • Na seleção passo a passo do modelo , compara-se os modelos vizinhos na sequência e para quando o modelo em consideração parece superior aos dois vizinhos (o anterior e o posterior). Isso pode ser feito observando diferentes propriedades dos modelos, por exemplo, seus valores AIC, p-valores, etc.

Enquanto isso,

AIC é uma medida da qualidade relativa de modelos estatísticos para um determinado conjunto de dados. ( Wikipedia )

AIC pode ser aplicada para selecionar um modelo de um conjunto de candidatos. Pode ser usado como critério de seleção na seleção gradual, mas não apenas.

Portanto, stepwise e AIC são dois aspectos diferentes da seleção de modelos que podem ser usados ​​juntos ou separadamente, e dependendo disso e de outras considerações pode ou não ser apropriado.

Richard Hardy
fonte
obrigado por sua resposta útil também. Sim, eu sei que o AIC pode ser usado separadamente do passo a passo. No meu campo (biologia), no entanto, sou frequentemente confrontado com vários preditores candidatos para a resposta. Conseqüentemente, construir um pequeno conjunto de apenas alguns modelos pré-determinados e compará-los (sem fazer seleção gradual ou para frente ou para trás, ou todas as combinações possíveis (draga)) é muitas vezes impossível, mesmo com o melhor conhecimento biológico disponível e um pensamento cuidadoso. Algum outro conselho sobre qual seria a melhor maneira nesses casos?
Tilen 15/03/19
@ Tilen, a estimativa regularizada geralmente é uma boa idéia; por exemplo, rede elástica ou seus casos especiais (laço e cume) podem ser úteis. Mínimos quadrados parciais é outra maneira.
Richard Hardy
Obrigado, vou olhar para eles. Esses métodos são muito mais complicados a partir de, por exemplo, procedimentos passo a passo baseados na AIC ou são apenas mais recentes? A razão pela qual estou perguntando é entender por que os cursos e livros de modelagem estatística (pelo menos introdutórios ou básicos, mas aplicados a evn) parecem conter procedimentos passo a passo (tanto com valor-p quanto com base na AIC), em vez dos métodos que você se referiu.
Tilen 15/03/19
@ Tilen, provavelmente ambos.
Richard Hardy
Eu vejo. Gostaria de saber se você tem alguma opinião sobre uma pergunta diretamente relacionada, mas diferente: stats.stackexchange.com/questions/265572/… ?
Tilen 15/03/19