Como você escolhe um modelo dentre os diferentes modelos escolhidos por diferentes métodos (por exemplo, seleção anterior ou posterior)?
Além disso, o que é um modelo parcimonioso?
Como você escolhe um modelo dentre os diferentes modelos escolhidos por diferentes métodos (por exemplo, seleção anterior ou posterior)?
Além disso, o que é um modelo parcimonioso?
Respostas:
Um modelo parcimonioso é um modelo que realiza um nível desejado de explicação ou previsão com o menor número possível de variáveis preditoras.
Para avaliação do modelo, existem métodos diferentes, dependendo do que você deseja saber. Geralmente, existem duas maneiras de avaliar um modelo: Com base em previsões e com base na adequação dos dados atuais. No primeiro caso, você deseja saber se o seu modelo prevê adequadamente novos dados; no segundo, deseja saber se o modelo descreve adequadamente as relações nos dados atuais. Essas são duas coisas diferentes.
Avaliação com base em previsões
A melhor maneira de avaliar os modelos usados para previsão é a validação cruzada. Muito brevemente, você cortou seu conjunto de dados, por exemplo. 10 peças diferentes, use 9 delas para construir o modelo e prever os resultados para o décimo conjunto de dados. Uma diferença quadrática média simples entre os valores observados e previstos fornece uma medida para a precisão da previsão. Ao repetir isso dez vezes, você calcula a diferença quadrática média em todas as dez iterações para chegar a um valor geral com um desvio padrão. Isso permite comparar novamente dois modelos em sua precisão de previsão usando técnicas estatísticas padrão (teste t ou ANOVA).
Uma variante do tema é o critério PRESS (soma dos quadrados da previsão), definida como
WhereY^i ( - i ) is the predicted value for the ith observation using a model based on all observations minus the ith value. This criterion is especially useful if you don't have much data. In that case, splitting your data like in the crossvalidation approach might result in subsets of data that are too small for a stable fitting.
Avaliação com base na qualidade do ajuste
Deixe-me primeiro declarar que isso realmente difere dependendo da estrutura do modelo que você usa. Por exemplo, um teste de razão de verossimilhança pode funcionar para modelos mistos aditivos generalizados ao usar o gaussiano clássico para os erros, mas não faz sentido no caso da variante binomial.
Primeiro, você tem os métodos mais intuitivos de comparação de modelos. Você pode usar o Critério de Informação Aikake (AIC) ou o Critério de Informação Bayesiano (BIC) para comparar a qualidade do ajuste para dois modelos. Mas nada diz que os dois modelos realmente diferem.
Outro é o critério Cp de Mallow. Isso essencialmente verifica a possível tendência no seu modelo, comparando o modelo com todos os submodelos possíveis (ou uma seleção cuidadosa deles). Veja também http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Se os modelos que você deseja comparar são modelos aninhados (ou seja, todos os preditores e interações do modelo mais parcimonioso ocorrem também no modelo mais completo), você pode usar uma comparação formal na forma de um teste de razão de verossimilhança (ou um teste qui-quadrado ou um teste F nos casos apropriados, por exemplo, ao comparar modelos lineares simples ajustados usando mínimos quadrados). Esse teste controla essencialmente se os preditores ou interações extras realmente melhoram o modelo. Este critério é frequentemente usado em métodos passo a passo para frente ou para trás.
Sobre a seleção automática de modelos
Você tem advogados e inimigos deste método. Pessoalmente, não sou a favor da seleção automática de modelos, especialmente quando se trata de descrever modelos, e isso por várias razões:
Então, basicamente, vejo mais na comparação de um conjunto seleto de modelos escolhidos anteriormente. Se você não se importa com a avaliação estatística do modelo e o teste de hipóteses, pode usar a validação cruzada para comparar a precisão preditiva de seus modelos.
Mas se você está realmente buscando a seleção de variáveis para fins preditivos, pode dar uma olhada em outros métodos de seleção de variáveis, como Máquinas de Vetor de Suporte, Redes Neurais, Florestas Aleatórias e coisas do gênero. Estes são usados com mais frequência, por exemplo, na medicina para descobrir quais das mil proteínas medidas podem prever adequadamente se você tem câncer ou não. Apenas para dar um exemplo (famoso):
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Todos esses métodos também possuem variantes de regressão para dados contínuos.
fonte
fonte
Usar a seleção para trás ou para frente é uma estratégia comum, mas não uma que eu possa recomendar. Os resultados dessa construção de modelo estão todos errados. Os valores de p são muito baixos, os coeficientes são desviados de 0 e existem outros problemas relacionados.
Se você precisar fazer a seleção automática de variáveis, eu recomendaria o uso de um método mais moderno, como LASSO ou LAR.
Eu escrevi uma apresentação do SAS sobre isso, intitulada "Parando passo a passo: por que métodos passo a passo e similares são ruins e o que você deve usar"
Mas, se possível, eu evitaria completamente esses métodos automatizados e confiaria na experiência no assunto. Uma idéia é gerar 10 modelos razoáveis e compará-los com base em um critério de informação. @Nick Sabbe listou vários deles em sua resposta.
fonte
A resposta para isso dependerá muito do seu objetivo. Você pode estar procurando coeficientes estatisticamente significativos ou pode evitar o máximo de classificações erradas possível ao prever o resultado para novas observações, ou pode simplesmente estar interessado no modelo com o mínimo de falsos positivos; talvez você queira simplesmente a curva mais próxima dos dados.
Em qualquer um dos casos acima, você precisa de algum tipo de medida para o que está procurando. Algumas medidas populares com diferentes aplicações são AUC, BIC, AIC, erro residual, ...
Você calcula a medida que melhor corresponde ao seu objetivo para cada modelo e compara as 'pontuações' para cada modelo. Isso leva ao melhor modelo para seu objetivo.
Algumas dessas medidas (por exemplo, AIC) colocam um estresse extra no número de coeficientes diferentes de zero no modelo, porque o uso em excesso pode simplesmente superaquecer os dados (para que o modelo seja inútil se você usá-lo para novos dados, muito menos para a população). Pode haver outras razões para exigir que um modelo contenha variáveis 'o menos possível', por exemplo, se é simplesmente caro medir todas elas para previsão. A 'simplicidade de' ou 'pequeno número de variáveis' em um modelo é normalmente referida como parcimônia.
Portanto, em resumo, um modelo parcimônico é um modelo "simples", sem conter muitas variáveis.
Como muitas vezes com esse tipo de perguntas, vou encaminhá-lo ao excelente livro Elements of Statistical Learning para obter informações mais aprofundadas sobre o assunto e questões relacionadas.
fonte
Achei a discussão aqui interessante, especialmente o debate entre parcimonioso e modelo, com maior número de coeficientes e variáveis.
Meu prof. Ultimamente, o Dr. Steve costumava enfatizar um modelo parcimonioso com baixo R ^ 2 em comparação com outro modelo com melhores ajustes / R ^ 2 grande.
Obrigado por todos os peixes aqui!
Akash
fonte