Apenas um pensamento:
Os modelos parcimoniosos sempre foram a opção padrão na seleção de modelos, mas em que grau essa abordagem está desatualizada? Estou curioso sobre o quanto nossa tendência à parcimônia é uma relíquia de um tempo de regras abac e deslizantes (ou, mais seriamente, computadores não modernos). O poder computacional de hoje nos permite construir modelos cada vez mais complexos, com capacidade cada vez maior de previsão. Como resultado desse teto cada vez maior no poder da computação, ainda precisamos gravitar em direção à simplicidade?
Certamente, modelos mais simples são mais fáceis de entender e interpretar, mas na era dos conjuntos de dados cada vez maiores, com um número maior de variáveis e uma mudança para um foco maior na capacidade de previsão, isso pode nem ser mais viável ou necessário.
Pensamentos?
fonte
Respostas:
A resposta original de @ Matt faz um ótimo trabalho ao descrever um dos benefícios da parcimônia, mas não acho que ela realmente responda à sua pergunta. Na realidade, a parcimônia não é o padrão-ouro. Nem agora nem nunca foi. Um "padrão ouro" relacionado à parcimônia é o erro de generalização. Gostaríamos de desenvolver modelos que não se ajustam demais. Isso é tão útil para previsão (ou interpretável ou com erro mínimo) fora da amostra quanto na amostra. Acontece (por causa das coisas expostas acima) que a parcimônia é realmente uma boa proxy para erro de generalização, mas não é de forma alguma a única.
Realmente, pense por que usamos validação cruzada ou bootstrapping ou conjuntos de treinamento / teste. O objetivo é criar modelos com boa precisão de generalização. Na maioria das vezes, essas maneiras de estimar o desempenho fora da amostra acabam escolhendo modelos com menor complexidade, mas nem sempre. Como um exemplo extremo, imagine que o oráculo nos entregue o modelo verdadeiro, mas extremamente complexo, e um modelo pobre, mas parcimonioso. Se a parcimônia era realmente nosso objetivo, escolheríamos o segundo, mas, na realidade, o primeiro é o que gostaríamos de aprender se pudéssemos. Infelizmente, na maioria das vezes, a última frase é o kicker, "se pudéssemos".
fonte
Modelos parcimoniosos são desejáveis não apenas devido aos requisitos de computação, mas também ao desempenho da generalização. É impossível alcançar o ideal de dados infinitos que cobrem completa e precisamente o espaço da amostra, o que significa que modelos não parcimoniosos têm o potencial de superajustar e modelar ruído ou idiossincrasias na população da amostra.
Certamente é possível construir um modelo com milhões de variáveis, mas você usaria variáveis que não têm impacto na saída para modelar o sistema. Você pode obter um ótimo desempenho preditivo em seu conjunto de dados de treinamento, mas essas variáveis irrelevantes provavelmente diminuirão seu desempenho em um conjunto de testes invisíveis.
Se uma variável de saída realmente for o resultado de um milhão de variáveis de entrada, seria bom colocá-las todas em seu modelo preditivo, mas apenas se você tiver dados suficientes . Para criar com precisão um modelo desse tamanho, você precisará de vários milhões de pontos de dados, no mínimo. Modelos parcimoniosos são bons porque, em muitos sistemas do mundo real, um conjunto de dados desse tamanho simplesmente não está disponível e, além disso, a saída é amplamente determinada por um número relativamente pequeno de variáveis.
fonte
Eu acho que as respostas anteriores fazem um bom trabalho ao fazer pontos importantes:
Quero acrescentar alguns comentários que saem da minha experiência de trabalho do dia a dia.
A generalização do argumento da precisão preditiva é, é claro, forte, mas tem um viés academicamente em seu foco. Em geral, ao produzir um modelo estatístico, as economias não são tais que o desempenho preditivo seja uma consideração completamente dominante. Muitas vezes, existem grandes restrições externas sobre a aparência de um modelo útil para um determinado aplicativo:
Em domínios de aplicativos reais, muitas, se não todas, essas considerações vêm antes , e não depois , do desempenho preditivo - e a otimização da forma e dos parâmetros do modelo é restringida por esses desejos. Cada uma dessas restrições direciona o cientista para a parcimônia.
Pode ser verdade que em muitos domínios essas restrições estão sendo gradualmente eliminadas. Mas é o cientista sortudo que realmente os ignora e se concentra puramente em minimizar o erro de generalização.
Isso pode ser muito frustrante pela primeira vez, cientista recém-saído da escola (definitivamente era para mim e continua sendo quando sinto que as restrições impostas ao meu trabalho não são justificadas). Mas, no final, trabalhar duro para produzir um produto inaceitável é um desperdício, e isso é pior do que o aguilhão do seu orgulho científico.
fonte
Eu acho que essa é uma pergunta muito boa. Na minha opinião, a parcimônia é superestimada. A natureza raramente é parcimoniosa e, portanto, não devemos necessariamente esperar que modelos preditivos ou descritivos precisos o sejam. Em relação à questão da interpretabilidade, se você escolher um modelo mais simples que apenas se modifique modestamente com a realidade, apenas porque você pode entendê-la, o que exatamente você está entendendo? Supondo que um modelo mais complexo tivesse melhor poder preditivo, ele pareceria estar mais próximo dos fatos reais.
fonte
A parcimônia não é um começo de ouro. É um aspecto na modelagem. A modelagem e principalmente a previsão não podem ser roteirizadas, ou seja, você não pode simplesmente entregar um script a um modelador para seguir. Você prefere definir princípios nos quais o processo de modelagem deve se basear. Portanto, a parcimônia é um desses princípios, cuja aplicação não pode ser script (de novo!). Um modelador considerará a complexidade quando um modelo de seleção.
O poder computacional tem pouco a ver com isso. Se você estiver no setor, seus modelos serão consumidos por pessoas de negócios, pessoas de produtos, seja lá como você os chamar. Você tem que explicar seu modelo para eles, deve fazer sentido para eles. Ter modelos parcimoniosos ajuda nesse sentido.
Por exemplo, você está prevendo vendas de produtos. Você deve ser capaz de descrever quais são os fatores que impulsionam as vendas e como elas funcionam. Eles devem estar relacionados aos conceitos com os quais os negócios operam e as correlações devem ser entendidas e aceitas pelos negócios. Com modelos complexos, pode ser muito difícil interpretar os resultados do modelo ou atribuir as diferenças aos valores reais. Se você não conseguir explicar seus modelos aos negócios, não será valorizado por ele.
Mais uma coisa que é particularmente importante para a previsão. Digamos que seu modelo depende de N variáveis exógenas. Isso significa que você deve primeiro obter as previsões dessas variáveis para prever sua variável dependente. Ter um N menor facilita sua vida, portanto, um modelo mais simples é mais fácil de usar.
fonte
Talvez tenha uma revisão do Critério de Informação de Akaike , um conceito que só descobri ontem por acaso. A AIC procura identificar qual modelo e quantos parâmetros são a melhor explicação para as observações em mãos, em vez de qualquer abordagem básica de Occam's Razor, ou parcimônia.
fonte