A parcimônia ainda deve realmente ser o padrão-ouro?

31

Apenas um pensamento:

Os modelos parcimoniosos sempre foram a opção padrão na seleção de modelos, mas em que grau essa abordagem está desatualizada? Estou curioso sobre o quanto nossa tendência à parcimônia é uma relíquia de um tempo de regras abac e deslizantes (ou, mais seriamente, computadores não modernos). O poder computacional de hoje nos permite construir modelos cada vez mais complexos, com capacidade cada vez maior de previsão. Como resultado desse teto cada vez maior no poder da computação, ainda precisamos gravitar em direção à simplicidade?

Certamente, modelos mais simples são mais fáceis de entender e interpretar, mas na era dos conjuntos de dados cada vez maiores, com um número maior de variáveis ​​e uma mudança para um foco maior na capacidade de previsão, isso pode nem ser mais viável ou necessário.

Pensamentos?

theforestecologist
fonte
4
Com desculpas a Richard Hamming: O objetivo da modelagem é insight, não números. Modelos complicados impedem o insight.
Eric Towers
12
Modelos simplificados demais impedem ainda mais o insight.
Frank Harrell
6
Pode depender da aplicação; em física, acho que o argumento da parcimônia terá uma base forte. No entanto, muitos aplicativos terão diversos efeitos pequenos que não podem ser eliminados (considere modelos de preferências políticas, por exemplo). Vários trabalhadores sugerem que o uso de regularização (como métodos que levam ao encolhimento ou, em muitas aplicações, encolhimento de diferenças, ou ambos), em vez da eliminação de variáveis, faz mais sentido; outros se inclinam para alguma seleção e algum encolhimento (o LASSO, por exemplo, faz os dois).
Glen_b -Reinstar Monica
3
Modelos parcimoniosos não são o "principal" na seleção de modelos. Caso contrário, sempre modelaríamos tudo com sua média amostral e a chamaríamos de dia.
Shadowtalker
1
Além disso, um pouco de reflexão: Mease e Wyner (2008) recomendam alunos mais ricos no AdaBoost, o que é um pouco pouco intuitivo. Uma questão em aberto nessa linha de pesquisa parece ser se os alunos de base parcimoniosa realmente levam a conjuntos parcimoniosos.
Shadowtalker

Respostas:

25

A resposta original de @ Matt faz um ótimo trabalho ao descrever um dos benefícios da parcimônia, mas não acho que ela realmente responda à sua pergunta. Na realidade, a parcimônia não é o padrão-ouro. Nem agora nem nunca foi. Um "padrão ouro" relacionado à parcimônia é o erro de generalização. Gostaríamos de desenvolver modelos que não se ajustam demais. Isso é tão útil para previsão (ou interpretável ou com erro mínimo) fora da amostra quanto na amostra. Acontece (por causa das coisas expostas acima) que a parcimônia é realmente uma boa proxy para erro de generalização, mas não é de forma alguma a única.

Realmente, pense por que usamos validação cruzada ou bootstrapping ou conjuntos de treinamento / teste. O objetivo é criar modelos com boa precisão de generalização. Na maioria das vezes, essas maneiras de estimar o desempenho fora da amostra acabam escolhendo modelos com menor complexidade, mas nem sempre. Como um exemplo extremo, imagine que o oráculo nos entregue o modelo verdadeiro, mas extremamente complexo, e um modelo pobre, mas parcimonioso. Se a parcimônia era realmente nosso objetivo, escolheríamos o segundo, mas, na realidade, o primeiro é o que gostaríamos de aprender se pudéssemos. Infelizmente, na maioria das vezes, a última frase é o kicker, "se pudéssemos".

Nick Thieme
fonte
Qual é a "resposta original"?
18115 mattdm
:) justo. Comentário de Matt.
22815 Nick Thieme
22

Modelos parcimoniosos são desejáveis ​​não apenas devido aos requisitos de computação, mas também ao desempenho da generalização. É impossível alcançar o ideal de dados infinitos que cobrem completa e precisamente o espaço da amostra, o que significa que modelos não parcimoniosos têm o potencial de superajustar e modelar ruído ou idiossincrasias na população da amostra.

Certamente é possível construir um modelo com milhões de variáveis, mas você usaria variáveis ​​que não têm impacto na saída para modelar o sistema. Você pode obter um ótimo desempenho preditivo em seu conjunto de dados de treinamento, mas essas variáveis ​​irrelevantes provavelmente diminuirão seu desempenho em um conjunto de testes invisíveis.

Se uma variável de saída realmente for o resultado de um milhão de variáveis ​​de entrada, seria bom colocá-las todas em seu modelo preditivo, mas apenas se você tiver dados suficientes . Para criar com precisão um modelo desse tamanho, você precisará de vários milhões de pontos de dados, no mínimo. Modelos parcimoniosos são bons porque, em muitos sistemas do mundo real, um conjunto de dados desse tamanho simplesmente não está disponível e, além disso, a saída é amplamente determinada por um número relativamente pequeno de variáveis.

Wang nuclear
fonte
5
+1. Sugiro a leitura de The Elements of Statistical Learning (disponível gratuitamente na web) , que discute esse problema em profundidade.
S. Kolassa - Restabelece Monica
3
Por outro lado, quando você tem milhões de variáveis ​​e poucos objetos, é provável que, por acaso, algumas variáveis ​​sejam melhores para explicar o resultado que a verdadeira interação. Nesse caso, a modelagem baseada em parcimônia será mais suscetível à adaptação excessiva do que uma abordagem de força bruta.
@CagdasOzgenc Por exemplo, um grande conjunto de subespaços aleatórios.
Eu sinto que algo como uma abordagem Lasso poderia ser aplicada aqui.
Theforestecologist
17

Eu acho que as respostas anteriores fazem um bom trabalho ao fazer pontos importantes:

  • Modelos parcimoniosos tendem a ter melhores características de generalização.
  • A parcimônia não é verdadeiramente um padrão-ouro, mas apenas uma consideração.

Quero acrescentar alguns comentários que saem da minha experiência de trabalho do dia a dia.

A generalização do argumento da precisão preditiva é, é claro, forte, mas tem um viés academicamente em seu foco. Em geral, ao produzir um modelo estatístico, as economias não são tais que o desempenho preditivo seja uma consideração completamente dominante. Muitas vezes, existem grandes restrições externas sobre a aparência de um modelo útil para um determinado aplicativo:

  • O modelo deve ser implementável dentro de uma estrutura ou sistema existente.
  • O modelo deve ser compreensível por uma entidade não técnica.
  • O modelo deve ser eficiente computacionalmente.
  • O modelo deve ser documentável .
  • O modelo deve passar por restrições regulatórias .

Em domínios de aplicativos reais, muitas, se não todas, essas considerações vêm antes , e não depois , do desempenho preditivo - e a otimização da forma e dos parâmetros do modelo é restringida por esses desejos. Cada uma dessas restrições direciona o cientista para a parcimônia.

Pode ser verdade que em muitos domínios essas restrições estão sendo gradualmente eliminadas. Mas é o cientista sortudo que realmente os ignora e se concentra puramente em minimizar o erro de generalização.

Isso pode ser muito frustrante pela primeira vez, cientista recém-saído da escola (definitivamente era para mim e continua sendo quando sinto que as restrições impostas ao meu trabalho não são justificadas). Mas, no final, trabalhar duro para produzir um produto inaceitável é um desperdício, e isso é pior do que o aguilhão do seu orgulho científico.

Matthew Drury
fonte
2
Nenhuma parcimônia não é uma consideração. Um procedimento de inferência de som DEVE classificar um modelo parcimonioso sobre um modelo não parcimonioso se eles explicarem os dados igualmente bem. Caso contrário, o comprimento total do código compactado do modelo e os dados codificados pelo modelo não serão os menores. Então, sim, é um padrão-ouro.
Cagdas Ozgenc
3
A parcimônia NÃO é um "padrão ouro"! Essa afirmação é absurda. Se fosse verdade, por que nem sempre construímos modelos que não se encaixam apenas na média incondicional? Negociamos o viés e a variação com referência a um conjunto de testes ou, melhor ainda, a observações completamente novas, e fazemos isso dentro das restrições de nosso campo, organização e lei. Às vezes, você tem apenas informações suficientes para fazer previsões ingênuas. Às vezes você tem o suficiente para adicionar complexidade.
Equilíbrio Brash
1
@BrashEquilibrium Acho que o que Cagdas está dizendo é que, dada a escolha entre modelos igualmente preditivos, deve-se escolher o mais parcimonioso.
Matthew Drury
1
Ah Isso é diferente. Sim, nesse caso, escolha o modelo mais parcimonioso. Ainda não acho que a parcimônia seja um "padrão-ouro".
Brash Equilibrium
1
@MatthewDrury Brash, Cagdas. Interessante. Talvez a parcimônia seja apenas um componente do padrão ouro; o que é provavelmente (ou deveria ser) melhor com base na noção de abrangência . Uma boa exposição dessa idéia é fornecida na seguinte aula de astrofísica de Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 em diante. A ideia também aparece na literatura econométrica / de previsão de David Hendry e Grayham Mizon. Eles argumentam que a abrangência faz parte de uma estratégia de pesquisa progressiva, cuja parcimônia é um aspecto único.
Graeme Walsh
14

Eu acho que essa é uma pergunta muito boa. Na minha opinião, a parcimônia é superestimada. A natureza raramente é parcimoniosa e, portanto, não devemos necessariamente esperar que modelos preditivos ou descritivos precisos o sejam. Em relação à questão da interpretabilidade, se você escolher um modelo mais simples que apenas se modifique modestamente com a realidade, apenas porque você pode entendê-la, o que exatamente você está entendendo? Supondo que um modelo mais complexo tivesse melhor poder preditivo, ele pareceria estar mais próximo dos fatos reais.

dsaxton
fonte
8
Bem dito @dsaxton. Há um grande mal-entendido de parcimônia e uma grande subavaliação de quão volátil é a seleção de recursos. A parcimônia é boa quando resulta da pré-especificação. A maior parte da parcimônia resultante da dragagem de dados é enganosa e só é entendida porque está errada.
31815 Frank Harrell
2
@FrankHarrell Você elaboraria "apenas entendido porque está errado" ou talvez criar um link para algo que você escreveu anteriormente sobre isso? Este é um ponto interessante que eu gostaria de ter certeza de entender.
gui11aume
8
Este é um exemplo extremo, mas as pessoas que se envolvem em perfis raciais acham que entendem, com uma única característica (por exemplo, cor da pele), qual o valor que alguém tem. Para eles, a resposta é simples. Eles só entendem porque estão fazendo um julgamento errado por simplificar demais. A parcimônia é geralmente uma ilusão (exceto na mecânica newtoniana e em algumas outras áreas).
Frank Harrell
1
"A natureza raramente é parcimoniosa": e um ponto em que a natureza é particularmente não parcimoniosa são os indivíduos (em oposição aos nossos tamanhos de amostra típicos!). O Evolution usa uma população totalmente nova de novos indivíduos a cada geração ... IMHO a parcimônia (tipo pré-especificado de Frank Harrell - permitir que qualquer n de m de recursos disponíveis no modelo seja de fato um modelo muito complexo - mesmo que n << m, essa é uma fração não tão pequena do espaço de pesquisa original) é como tentamos obter pelo menos algo de nossos conjuntos de dados muito pequenos.
cbeleites suporta Monica
2

A parcimônia não é um começo de ouro. É um aspecto na modelagem. A modelagem e principalmente a previsão não podem ser roteirizadas, ou seja, você não pode simplesmente entregar um script a um modelador para seguir. Você prefere definir princípios nos quais o processo de modelagem deve se basear. Portanto, a parcimônia é um desses princípios, cuja aplicação não pode ser script (de novo!). Um modelador considerará a complexidade quando um modelo de seleção.

O poder computacional tem pouco a ver com isso. Se você estiver no setor, seus modelos serão consumidos por pessoas de negócios, pessoas de produtos, seja lá como você os chamar. Você tem que explicar seu modelo para eles, deve fazer sentido para eles. Ter modelos parcimoniosos ajuda nesse sentido.

Por exemplo, você está prevendo vendas de produtos. Você deve ser capaz de descrever quais são os fatores que impulsionam as vendas e como elas funcionam. Eles devem estar relacionados aos conceitos com os quais os negócios operam e as correlações devem ser entendidas e aceitas pelos negócios. Com modelos complexos, pode ser muito difícil interpretar os resultados do modelo ou atribuir as diferenças aos valores reais. Se você não conseguir explicar seus modelos aos negócios, não será valorizado por ele.

Mais uma coisa que é particularmente importante para a previsão. Digamos que seu modelo depende de N variáveis ​​exógenas. Isso significa que você deve primeiro obter as previsões dessas variáveis ​​para prever sua variável dependente. Ter um N menor facilita sua vida, portanto, um modelo mais simples é mais fácil de usar.

Aksakal
fonte
Embora você mencione previsão, a maior parte de sua resposta parece se aplicar apenas à modelagem explicativa.
Rolando2
@ rolando2, parece que sim, porque no meu domínio você não pode simplesmente entregar a previsão aos usuários. Temos que explicar a previsão, vinculá-la aos motoristas etc. Quando você obtém previsão do tempo, normalmente não pede ao meteorologista que explique por que exatamente eles acham que vai chover com 50% de chance. No meu caso, eu não apenas tenho que fazê-lo, mas fazê-lo de uma maneira que meus consumidores entendam os resultados vinculando-o aos fatores de negócios com os quais lidam diariamente. É por isso que a parcimônia é valioso em seu próprio direito
Aksakal
1

Talvez tenha uma revisão do Critério de Informação de Akaike , um conceito que só descobri ontem por acaso. A AIC procura identificar qual modelo e quantos parâmetros são a melhor explicação para as observações em mãos, em vez de qualquer abordagem básica de Occam's Razor, ou parcimônia.

Philip Oakley
fonte