Estou executando um modelo logístico. O conjunto de dados do modelo real tem mais de 100 variáveis, mas estou escolhendo um conjunto de dados de teste no qual existem cerca de 25 variáveis. Antes disso, eu também fiz um conjunto de dados com 8 a 9 variáveis. Me disseram que os valores de AIC e SC podem ser usados para comparar o modelo. Observei que o modelo apresentava valores mais altos de SC, mesmo quando a variável apresentava valores baixos de p (ex. 0053). Para minha intuição, um modelo que possui variáveis com bom nível de significância deve resultar em baixos valores de SC e AIC. Mas isso não está acontecendo. Alguém pode esclarecer isso. Em resumo, quero fazer as seguintes perguntas:
- O número de variáveis tem algo a ver com o SC AIC?
- Devo me concentrar nos valores de p ou em valores baixos de SC AIC?
- Quais são as formas típicas de reduzir os valores do SC AIC?
fonte
Agrupar SC e AIC juntos está errado . São coisas muito diferentes, mesmo que as pessoas as usem demais. AIC é significativo quando você está prevendo coisas, usando o SC nesse cenário pode levar (nem sempre) a resultados errados. Da mesma forma, se você estiver interessado em fazer a seleção do modelo com o princípio da parcimônia (a navalha de Occam), o SC é melhor. Não quero entrar em detalhes teóricos, mas em poucas palavras: SC - bom para modelos parcimoniosos quando você deseja algo equivalente ao modelo mais simples possível para explicar seus dados, AIC - Quando você deseja prever. A AIC não assume que seu verdadeiro modelo esteja no espaço do modelo, como o SC.
Em segundo lugar, o uso de valores-p e critérios de informação juntos também pode ser enganoso, conforme explicado por chl .
fonte