Seleção de variáveis ​​vs Seleção de modelos

12

Então, eu entendo que a seleção de variáveis ​​faz parte da seleção de modelos. Mas em que consiste exatamente a seleção de modelos? É mais do que o seguinte:

1) escolha uma distribuição para o seu modelo

2) escolha variáveis ​​explicativas?

Pergunto isso porque estou lendo um artigo Burnham & Anderson: AIC vs BIC, onde eles falam sobre AIC e BIC na seleção de modelos. Lendo este artigo, percebo que estive pensando em 'seleção de modelo' como 'seleção de variável' (ref. Comentários A BIC tenta encontrar um modelo verdadeiro? )

Um trecho do artigo em que eles falam sobre 12 modelos com graus crescentes de "generalidade" e esses modelos mostram "efeitos cônicos" (Figura 1) quando KL-Information é plotado contra os 12 modelos:

FILOSOFIAS DIFERENTES E MODELOS ALVO ... Apesar de o alvo do BIC ser um modelo mais geral que o modelo alvo do AIC, o modelo mais frequentemente selecionado aqui pelo BIC será menos geral que o Modelo 7, a menos que n seja muito grande. Pode ser o modelo 5 ou 6. Sabe-se (de inúmeros artigos e simulações na literatura) que, no contexto de efeitos de redução gradual (Figura 1), a AIC tem um desempenho melhor que o BIC. Se esse é o contexto da análise real dos dados, a AIC deve ser usada.

Como pode BIC sempre escolher um modelo mais complexo do AIC na selecção do modelo Eu não entendo! O que especificamente é "seleção de modelo" e quando especificamente a BIC escolhe um modelo mais "geral" que a AIC?

Se estamos falando sobre seleção de variáveis, o BIC certamente deve sempre escolher o modelo com menor quantidade de variáveis, correto? Os 2eun(N)k termo no BIC sempre penaliza as variáveis ​​adicionadas mais do que o termo no AIC. Mas isso não é irracional quando " o alvo da BIC é um modelo mais geral que o modelo da AIC "?2k

EDIT :

De uma discussão nos comentários em Existe algum motivo para preferir o AIC ou o BIC em detrimento do outro? vemos uma pequena discussão entre @ Michael Chernick e @ user13273 nos comentários, levando-me a acreditar que isso é algo que não é tão trivial:

Eu acho que é mais apropriado chamar essa discussão como seleção de "recurso" ou seleção "covariável". Para mim, a seleção de modelos é muito mais ampla, envolvendo a especificação da distribuição de erros, a forma da função de link e a forma de covariáveis. Quando falamos sobre AIC / BIC, normalmente estamos na situação em que todos os aspectos da construção de modelos são fixos, exceto a seleção de covariáveis. O que você está procurando?

A decisão das covariáveis ​​específicas a serem incluídas em um modelo geralmente é feita pelo termo seleção de modelo e há vários livros com seleção de modelo no título que decidem principalmente quais covariáveis ​​/ parâmetros de modelo incluir no modelo. #: 22612 Michael Chernick

Erosennin
fonte
3
Boa pergunta! Pelo menos parte da resolução é distinguir entre o "alvo" da BIC na terminologia deste artigo - o modelo verdadeiro, que será escolhido com um tamanho de amostra muito grande - e o modelo que será escolhido com uma amostra específica Tamanho. Não há contradição, então, ao considerar uma sequência aninhada de modelos com um não crescente. parâmetros, ao dizer que o alvo do BIC é o modelo com 9 parâmetros, embora em um tamanho de amostra moderado o BIC escolha o modelo com 4 parâmetros, e o AIC com 6.
Scortchi - Reinstate Monica
1
@ Scortchi: Bom exemplo, mas o conceito de um modelo de destino não é totalmente redundante quando falamos de modelos aninhados? Se o contexto for um conjunto de modelos aninhados (então estamos falando sobre seleção de variáveis): o BIC pode ter um modelo de destino mais complexo , mas nunca escolherá um modelo mais complexo que o AIC. Em qualquer outro contexto (estamos falando sobre seleção de modelo) (com grande tamanho de amostra), o artigo afirma que o BIC escolherá um modelo de destino mais complexo ("geral") que o AIC. Como isso acontece especificamente, ainda não está claro para mim.
Erosennin
@Erosennin, você já conseguiu encontrar uma resposta para esta sua pergunta geral?
Zipzapboing 27/05

Respostas:

3

Às vezes, os modeladores separam a seleção de variáveis ​​em uma etapa distinta no desenvolvimento do modelo. Por exemplo, eles primeiro realizavam análises exploratórias, pesquisavam a literatura acadêmica e as práticas da indústria e, em seguida, apresentavam uma lista de variáveis ​​candidatas. Eles chamariam essa etapa seleção de variável .

Em seguida, eles executaram várias especificações diferentes com muitas combinações diferentes de variáveis, como o modelo OLS:

yEu=jmXEujmβjm+εEu,
Onde jm denota variável j em um modelo m. Eles escolheriam o melhor modelo dentre todos os modelosmmanualmente ou em rotinas automatizadas. Então, essas pessoas chamariam a última fase seleção de modelo de .

É semelhante a como as pessoas falam em aprendizado de máquina engenharia de recursos , quando apresentam variáveis. Você conecta os recursos no LASSO ou em estruturas similares onde constrói um modelo usando esses recursos (variáveis). Nesse contexto, faz sentido separar a seleção de variáveis ​​em uma etapa distinta, porque você permite que o algoritmo escolha os coeficientes corretos para as variáveis ​​e não elimine nenhuma variável. Seu julgamento (em relação a qual variável entra em um modelo) é isolado na etapa de seleção de variáveis, e o restante depende do algoritmo de ajuste.

No contexto do artigo que você citou, tudo isso é irrelevante. O documento usa o BIC ou o AIC para selecionar entre diferentes especificações do modelo. Não importa se você teve a seleção de variáveis ​​como uma etapa separada neste caso. O que importa é quais variáveis ​​estão em qualquer especificação de modelo específicam, então você olha para o BIC / AIC para escolher o melhor. Eles são responsáveis ​​pelo tamanho da amostra e pelo número de variáveis.

Aksakal
fonte