Venho estudando estatística de muitos livros nos últimos 3 anos e, graças a este site, aprendi muito. No entanto, uma pergunta fundamental ainda permanece sem resposta para mim. Pode ter uma resposta muito simples ou muito difícil, mas sei com certeza que requer algum entendimento profundo das estatísticas.
Ao ajustar um modelo aos dados, seja uma abordagem frequentista ou bayesiana, propomos um modelo, que pode consistir em uma forma funcional de probabilidade, uma prévia ou um kernel (não paramétrico) etc. A questão é qualquer modelo se encaixa em uma amostra com algum nível de bondade. Pode-se sempre encontrar um modelo melhor ou pior comparado ao que está atualmente disponível. Em algum momento, paramos e começamos a tirar conclusões, generalizamos para parâmetros populacionais, relatamos intervalos de confiança, calculamos riscos etc. Portanto, qualquer conclusão que tiramos sempre depende do modelo que decidimos estabelecer. Mesmo se estivermos usando ferramentas para estimar a distância esperada de KL, como AIC, MDL, etc., isso não diz nada sobre onde estamos em uma base absoluta, mas apenas melhora nossa estimativa em uma base relativa.
Agora, suponha que gostaríamos de definir um procedimento passo a passo para aplicar a qualquer conjunto de dados ao criar modelos. O que devemos especificar como regra de parada? Podemos pelo menos limitar o erro do modelo que nos dará um ponto de parada objetivo (isso é diferente de interromper o treinamento usando uma amostra de validação, pois também fornece um ponto de parada na classe de modelo avaliada em vez de escrever o verdadeiro DGP)?
Respostas:
Infelizmente, esta pergunta não tem uma boa resposta. Você pode escolher o melhor modelo com base no fato de que ele minimiza o erro absoluto, o erro ao quadrado, maximiza a probabilidade, usando alguns critérios que penalizam a probabilidade (por exemplo, AIC, BIC) para mencionar apenas algumas opções mais comuns. O problema é que nenhum desses critérios permitirá que você escolha o modelo objetivamente melhor, mas o melhor a partir do qual você comparou. Outro problema é que, ao otimizar, você sempre pode terminar em um máximo / mínimo local. Ainda outro problema é que sua escolha de critérios para a seleção de modelos é subjetiva . Em muitos casos, você, consciente ou semi-conscientemente, decide sobre o que está interessado e escolhe os critérios com base nisso. Por exemplo, usar o BIC em vez do AIC leva a modelos mais parcimoniosos, com menos parâmetros. Geralmente, para modelagem, você está interessado em modelos mais parcimoniosos que levam a algumas conclusões gerais sobre o universo, enquanto que para prever isso não precisa ser assim, e às vezes um modelo mais complicado pode ter um melhor poder preditivo (mas não precisa e muitas vezes isso não). Em outros casos, por vezes, modelos mais complicados são preferidos por razões práticas , por exemplo, ao estimar o modelo bayesiano com o MCMC, o modelo com hiperprioridades hierárquicas pode se comportar melhor em simulação do que o mais simples. Por outro lado, geralmente temos medo de ajustar demaise o modelo mais simples tem o menor risco de sobreajuste, por isso é uma escolha mais segura. Um bom exemplo disso é uma seleção automática de modelos passo a passo que geralmente não é recomendada, pois leva facilmente a estimativas excessivamente ajustadas e tendenciosas. Há também um argumento filosófico, a lâmina de Occam , de que o modelo mais simples é o preferido. Observe também que estamos discutindo aqui a comparação de modelos diferentes, enquanto que em situações da vida real também é possível que o uso de ferramentas estatísticas diferentes leve a resultados diferentes - para que exista uma camada adicional de escolha do método!
Tudo isso leva a um fato triste, mas divertido, de que nunca podemos ter certeza. Começamos com a incerteza, usamos métodos para lidar com isso e acabamos com a incerteza. Isso pode ser paradoxal, mas lembre-se de que usamos estatísticas porque acreditamos que o mundo é incerto e probabilístico (caso contrário, escolheríamos uma carreira de profetas), então como poderíamos terminar com conclusões diferentes? Não existe uma regra objetiva de parada, existem vários modelos possíveis, todos eles estão errados (desculpe o clichê!) Porque tentam simplificar a realidade complicada (em constante mudança e probabilística). Achamos que alguns deles são mais úteis que outros para nossos propósitos e, às vezes, fazerencontre diferentes modelos úteis para diferentes fins. Você pode ir ao fundo para perceber que, em muitos casos, criamos modelos desconhecidosθ , que na maioria dos casos nunca pode ser conhecido, ou mesmo não existe (uma população tem algumaμ para a idade?). A maioria dos modelos que não adianta tentar descrever a realidade, mas sim fornecer abstrações e generalizações, então eles não podem ser "certo" ou "correta".
Você pode ir ainda mais fundo e descobrir que não existe "probabilidade" na realidade - é apenas uma aproximação da incerteza à nossa volta e também existem maneiras alternativas de aproximar isso, por exemplo, lógica difusa (ver Kosko, 1993 para discussão). Mesmo as ferramentas e teoremas muito básicos nos quais nossos métodos se baseiam são aproximações e não são os únicos possíveis. Simplesmente não podemos ter certeza de tal configuração.
A regra de parada que você está procurando é sempre específica e subjetiva do problema, ou seja, baseada no chamado julgamento profissional. A propósito, existem muitos exemplos de pesquisa que mostram que os profissionais geralmente não são melhores e, às vezes, piores em seus julgamentos do que os leigos (por exemplo, revividos em papéis e livros por Daniel Kahneman ), embora sejam mais propensos a excesso de confiança (isso é realmente uma discussão sobre por que não devemos tentar "ter certeza" sobre nossos modelos).
Kosko, B. (1993). Pensamento nebuloso: a nova ciência da lógica nebulosa. Nova York: Hyperion.
fonte
Existe um campo inteiro chamado estatística não paramétrica que evita o uso de modelos fortes. No entanto, sua preocupação com a montagem de modelos, por si só, é válida. Infelizmente, não há procedimento mecânico para ajustar modelos que seriam universalmente aceitos como "ótimos". Por exemplo, se você deseja definir o modelo que maximiza a probabilidade de seus dados, você será levado à função de distribuição empírica.
No entanto, geralmente temos algumas suposições e restrições de segundo plano, como a contínua com primeiro e segundo momentos finitos. Para casos como esses, uma abordagem é escolher uma medida como a Entropia Diferencial de Shannon e maximizá-la no espaço de distribuições contínuas que satisfazem suas restrições de limite.
O que eu gostaria de salientar é que, se você não deseja apenas padronizar o ECDF, precisará adicionar suposições, além dos dados, para chegar lá, e isso exige conhecimento no assunto e, sim , o temido ... julgamento profissional
Portanto, existe um ponto de parada garantido para a modelagem ... a resposta é não. Existe um lugar bom o suficiente para parar? Geralmente, sim, mas esse ponto dependerá de mais do que apenas os dados e alguns dados estatísticos, você normalmente levará em consideração os riscos de diferentes erros, as limitações técnicas para implementar os modelos e a robustez de suas estimativas, etc.
Como o @Luca apontou, você sempre pode fazer a média de uma classe de modelos, mas, como corretamente apontou, isso levará a questão ao próximo nível de hiperparâmetros. Infelizmente, parece que vivemos dentro de uma cebola com camadas infinitas ... em ambas as direções!
fonte