Quando parar de refinar um modelo?

15

Venho estudando estatística de muitos livros nos últimos 3 anos e, graças a este site, aprendi muito. No entanto, uma pergunta fundamental ainda permanece sem resposta para mim. Pode ter uma resposta muito simples ou muito difícil, mas sei com certeza que requer algum entendimento profundo das estatísticas.

Ao ajustar um modelo aos dados, seja uma abordagem frequentista ou bayesiana, propomos um modelo, que pode consistir em uma forma funcional de probabilidade, uma prévia ou um kernel (não paramétrico) etc. A questão é qualquer modelo se encaixa em uma amostra com algum nível de bondade. Pode-se sempre encontrar um modelo melhor ou pior comparado ao que está atualmente disponível. Em algum momento, paramos e começamos a tirar conclusões, generalizamos para parâmetros populacionais, relatamos intervalos de confiança, calculamos riscos etc. Portanto, qualquer conclusão que tiramos sempre depende do modelo que decidimos estabelecer. Mesmo se estivermos usando ferramentas para estimar a distância esperada de KL, como AIC, MDL, etc., isso não diz nada sobre onde estamos em uma base absoluta, mas apenas melhora nossa estimativa em uma base relativa.

Agora, suponha que gostaríamos de definir um procedimento passo a passo para aplicar a qualquer conjunto de dados ao criar modelos. O que devemos especificar como regra de parada? Podemos pelo menos limitar o erro do modelo que nos dará um ponto de parada objetivo (isso é diferente de interromper o treinamento usando uma amostra de validação, pois também fornece um ponto de parada na classe de modelo avaliada em vez de escrever o verdadeiro DGP)?

Cagdas Ozgenc
fonte
11
Eu acho que você deve adicionar outras tags à pergunta além da inferência, por exemplo, algumas tags de modelagem e seleção de modelos. Eu acho que isso pode ser relevante para isso também é a navalha de Occam . Aqui também está um artigo que discute a modelagem bayesiana.
Gumeo 27/10/2015
Às vezes, você constrói um modelo específico porque é particularmente bom para estimar determinados parâmetros, não porque acha que a distribuição geral é precisa (consulte estimativa M, equações de estimativa generalizada) etc. Portanto, se você realmente se importa com uma estimativa decente da localização, você pode se sair melhor com um modelo errado, mas que não seja facilmente jogado pelo ruído (para o seu parâmetro de interesse). Em geral, consulte Estimativa Robusta.
Pergunta muito interessante. Apenas um comentário de que, pelo menos no cenário bayesiano, um que também levanta a questão de calcular a média sobre o subconjunto plausível de modelos, em vez de escolher um. Não tenho certeza de nenhuma maneira teórica para a pergunta do OP e acho que praticamente isso ocorre se o modelo escolhido é bom o suficiente para o problema que estamos tentando resolver. Talvez precisemos de seleção de modelos pelos métodos MCMC ou algo assim! Eu posso imaginar uma abordagem MCMC aninhados para isso ...
Luca
@Luca Isso foi feito. No entanto, o problema permanece, pois o espaço dos modelos definidos pelo Bayesiano anterior pode ou não conter o modelo verdadeiro. Mesmo se o erro do modelo ainda estiver lá, esse é o erro do modelo médio em relação ao verdadeiro DGP.
Cagdas Ozgenc # 30/15
11
+1 para a pergunta. Em grande parte, as preocupações são filosófica ou epistemológica, isto é, não só "o que sabemos e como sabemos isso", mas "o que pode nós sabemos e como pode a conhecemos?" Como disse o físico Richard Feynman: "É impossível encontrar uma resposta que um dia não será considerada errada". Em outras palavras, e a menos que você seja religioso, existe uma dúvida razoável de que exista uma verdade unívoca e eterna, sobre a qual ancorar qualquer coisa. .
Mike Hunter

Respostas:

12

Infelizmente, esta pergunta não tem uma boa resposta. Você pode escolher o melhor modelo com base no fato de que ele minimiza o erro absoluto, o erro ao quadrado, maximiza a probabilidade, usando alguns critérios que penalizam a probabilidade (por exemplo, AIC, BIC) para mencionar apenas algumas opções mais comuns. O problema é que nenhum desses critérios permitirá que você escolha o modelo objetivamente melhor, mas o melhor a partir do qual você comparou. Outro problema é que, ao otimizar, você sempre pode terminar em um máximo / mínimo local. Ainda outro problema é que sua escolha de critérios para a seleção de modelos é subjetiva . Em muitos casos, você, consciente ou semi-conscientemente, decide sobre o que está interessado e escolhe os critérios com base nisso. Por exemplo, usar o BIC em vez do AIC leva a modelos mais parcimoniosos, com menos parâmetros. Geralmente, para modelagem, você está interessado em modelos mais parcimoniosos que levam a algumas conclusões gerais sobre o universo, enquanto que para prever isso não precisa ser assim, e às vezes um modelo mais complicado pode ter um melhor poder preditivo (mas não precisa e muitas vezes isso não). Em outros casos, por vezes, modelos mais complicados são preferidos por razões práticas , por exemplo, ao estimar o modelo bayesiano com o MCMC, o modelo com hiperprioridades hierárquicas pode se comportar melhor em simulação do que o mais simples. Por outro lado, geralmente temos medo de ajustar demaise o modelo mais simples tem o menor risco de sobreajuste, por isso é uma escolha mais segura. Um bom exemplo disso é uma seleção automática de modelos passo a passo que geralmente não é recomendada, pois leva facilmente a estimativas excessivamente ajustadas e tendenciosas. Há também um argumento filosófico, a lâmina de Occam , de que o modelo mais simples é o preferido. Observe também que estamos discutindo aqui a comparação de modelos diferentes, enquanto que em situações da vida real também é possível que o uso de ferramentas estatísticas diferentes leve a resultados diferentes - para que exista uma camada adicional de escolha do método!

Tudo isso leva a um fato triste, mas divertido, de que nunca podemos ter certeza. Começamos com a incerteza, usamos métodos para lidar com isso e acabamos com a incerteza. Isso pode ser paradoxal, mas lembre-se de que usamos estatísticas porque acreditamos que o mundo é incerto e probabilístico (caso contrário, escolheríamos uma carreira de profetas), então como poderíamos terminar com conclusões diferentes? Não existe uma regra objetiva de parada, existem vários modelos possíveis, todos eles estão errados (desculpe o clichê!) Porque tentam simplificar a realidade complicada (em constante mudança e probabilística). Achamos que alguns deles são mais úteis que outros para nossos propósitos e, às vezes, fazerencontre diferentes modelos úteis para diferentes fins. Você pode ir ao fundo para perceber que, em muitos casos, criamos modelos desconhecidosθ, que na maioria dos casos nunca pode ser conhecido, ou mesmo não existe (uma população tem algumaμpara a idade?). A maioria dos modelos que não adianta tentar descrever a realidade, mas sim fornecer abstrações e generalizações, então eles não podem ser "certo" ou "correta".

Você pode ir ainda mais fundo e descobrir que não existe "probabilidade" na realidade - é apenas uma aproximação da incerteza à nossa volta e também existem maneiras alternativas de aproximar isso, por exemplo, lógica difusa (ver Kosko, 1993 para discussão). Mesmo as ferramentas e teoremas muito básicos nos quais nossos métodos se baseiam são aproximações e não são os únicos possíveis. Simplesmente não podemos ter certeza de tal configuração.

A regra de parada que você está procurando é sempre específica e subjetiva do problema, ou seja, baseada no chamado julgamento profissional. A propósito, existem muitos exemplos de pesquisa que mostram que os profissionais geralmente não são melhores e, às vezes, piores em seus julgamentos do que os leigos (por exemplo, revividos em papéis e livros por Daniel Kahneman ), embora sejam mais propensos a excesso de confiança (isso é realmente uma discussão sobre por que não devemos tentar "ter certeza" sobre nossos modelos).


Kosko, B. (1993). Pensamento nebuloso: a nova ciência da lógica nebulosa. Nova York: Hyperion.

Tim
fonte
11
Se houvesse "DGP verdadeiro" e pudéssemos medi-lo, não precisaríamos de estatísticas, mediríamos diretamente. Como não existe, criamos aproximações da realidade. O DGP é abstrato e não é verdade e, em muitos casos, não tem muito a ver com a forma como os dados foram realmente gerados. Quero salientar que não estou dizendo que as estatísticas são subjetivas e inúteis, mas sim que é uma aproximação e não existem coisas como "true DGP" ou "trueμ"etc.
Tim
11
A alegação é verdadeira quando suas suposições são satisfeitas (por exemplo, recebemos uma amostra fixa, o que é verdade na prática). Tirado do contexto e com violações de suposições, é claro que pode ser feito falso.
Richard Hardy #
11
@CagdasOzgenc é alguém que tem uma metodologia para criar um modelo que reflete perfeitamente a realidade, do que não há necessidade de parar regras ou medir o erro do modelo - o modelo é perfeito por definição. Se você conhece as regras para criar esse modelo, não há necessidade de medir a divergência do seu modelo em relação ao verdadeiro DGP, pois o conhecimento do verdadeiro DGP apenas utiliza esse conhecimento. Por outro lado, se o seu modelo é uma simplificação com base nos dados que você possui, as regras gerais de estatísticas se aplicam, conforme descrito na minha resposta.
Tim
11
@CagdasOzgenc ainda, se você conhece a "verdade", a regra de parada é simples: pare quando o modelo se encaixar na "verdade". Se você não sabe o que é verdade, então "todos os modelos estão [igualmente] errados ..." e você precisa usar estatísticas. Se você não sabe, não pode medir a divergência.
Tim
11
@Luca Significa muito , mas é abstrato.
Tim
4

Existe um campo inteiro chamado estatística não paramétrica que evita o uso de modelos fortes. No entanto, sua preocupação com a montagem de modelos, por si só, é válida. Infelizmente, não há procedimento mecânico para ajustar modelos que seriam universalmente aceitos como "ótimos". Por exemplo, se você deseja definir o modelo que maximiza a probabilidade de seus dados, você será levado à função de distribuição empírica.

No entanto, geralmente temos algumas suposições e restrições de segundo plano, como a contínua com primeiro e segundo momentos finitos. Para casos como esses, uma abordagem é escolher uma medida como a Entropia Diferencial de Shannon e maximizá-la no espaço de distribuições contínuas que satisfazem suas restrições de limite.

O que eu gostaria de salientar é que, se você não deseja apenas padronizar o ECDF, precisará adicionar suposições, além dos dados, para chegar lá, e isso exige conhecimento no assunto e, sim , o temido ... julgamento profissional

Portanto, existe um ponto de parada garantido para a modelagem ... a resposta é não. Existe um lugar bom o suficiente para parar? Geralmente, sim, mas esse ponto dependerá de mais do que apenas os dados e alguns dados estatísticos, você normalmente levará em consideração os riscos de diferentes erros, as limitações técnicas para implementar os modelos e a robustez de suas estimativas, etc.

Como o @Luca apontou, você sempre pode fazer a média de uma classe de modelos, mas, como corretamente apontou, isso levará a questão ao próximo nível de hiperparâmetros. Infelizmente, parece que vivemos dentro de uma cebola com camadas infinitas ... em ambas as direções!


fonte