Qual é o significado de "Todos os modelos estão errados, mas alguns são úteis"

76

"Essencialmente, todos os modelos estão errados, mas alguns são úteis."

--- Box, George EP; Norman R. Draper (1987). Superfícies empíricas de construção de modelos e resposta, p. 424, Wiley. ISBN 0471810339.

Qual é exatamente o significado da frase acima?

gpuguy
fonte
13
No mesmo livro foi mencionado anteriormente: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Talvez isso seja mais útil.
usεr11852 diz Reinstate Monic

Respostas:

101

Penso que o seu significado é melhor analisado, analisando-o em duas partes:

"Todos os modelos estão errados", isto é, todo modelo está errado porque é uma simplificação da realidade. Alguns modelos, especialmente nas ciências "difíceis", estão apenas um pouco errados. Eles ignoram coisas como atrito ou o efeito gravitacional de corpos minúsculos. Outros modelos estão muito errados - eles ignoram coisas maiores. Nas ciências sociais, ignoramos muito.

"Mas alguns são úteis" - simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e entender o universo e todos os seus vários componentes.

Isso não é verdade apenas nas estatísticas! Os mapas são um tipo de modelo; eles estão errados. Mas bons mapas são muito úteis. São exemplos de outros modelos úteis, mas errados.

Peter Flom - Restabelece Monica
fonte
20
+1 Porque eu gosto da analogia dos mapas. Eu vou usá-lo no futuro!
usεr11852 diz Reinstate Monic
4
Muitos modelos nas ciências "difíceis" também estão muito distantes (ontem participei de um seminário em que medidas estavam dentro do modelo da barra de erros, mas a barra de erros tinha duas ordens de magnitude).
precisa saber é
7
+1. Eu acho que sua frase-chave é "todo modelo está errado porque é uma simplificação da realidade". As pessoas costumam esquecer isso - por exemplo, em críticas ingênuas à economia (eu tenho minhas próprias críticas, mas elas precisam ser mais sofisticadas do que apenas que "a realidade é mais complexa que o seu modelo"). Se não simplificássemos, você tem uma realidade crua, que é muito complexa para nós entendermos. Portanto, precisamos simplificá-lo para obter qualquer insight.
Peter Ellis
13
A fantasia de um mapa perfeito em escala 1: 1 tem sido usada por muitos autores, incluindo Lewis Carroll, Jorge Luis Borges e Umberto Eco. Na verdade, seria inútil porque seria necessariamente apenas complicado como a área que mapeia e não é mais fácil de entender (para não mencionar o constrangimento de desdobrar e colocar em leitura).
Nick Cox
2
Talvez você também possa adicionar que um modelo deve estar um pouco errado, porque, caso contrário, não seria generalizado e, portanto, não seria aplicável em outros lugares. Existem algumas respostas dizendo isso mais adiante. Mas agora existem muitas respostas para ler todas elas.
Ziggystar 5/05
9

Isso significa que idéias úteis podem ser fornecidas a partir de modelos que não representam perfeitamente os fenômenos que modelam.

Um modelo estatístico é uma descrição de um sistema usando conceitos matemáticos. Como tal, em muitos casos, você adiciona uma certa camada de abstração para facilitar seu procedimento inferencial (por exemplo, normalidade dos erros de medição, simetria composta em estruturas de correlação etc.). É quase impossível para um único modelo descrever perfeitamente um fenômeno do mundo real, dado que temos uma visão subjetiva do mundo (nosso sistema sensorial não é perfeito); não obstante, a inferência estatística bem-sucedida acontece porque nosso mundo tem um certo grau de consistência que exploramos. Portanto, nossos modelos quase sempre errados são úteis .

(Tenho certeza de que em breve você receberá uma grande resposta em negrito, mas tentei ser conciso quanto a essa!)

usεr11852 diz Reinstate Monic
fonte
Podemos dizer que esses modelos úteis são soluções aproximadas?
gpuguy
2
@ gpuguy: Claro que você pode. Para citar John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(na verdade, acho que a citação de JT é incrivelmente esclarecedora.)
usεr11852 diz Reinstate Monic
6
"Muito melhor, uma resposta aproximada à pergunta certa, que geralmente é vaga, do que uma resposta exata à pergunta errada, que sempre pode ser precisa." John W. Tukey 1962 O futuro da análise de dados. Annals of Mathematics Statistics 33: 1-67 (ver pp.13-14) Sem dúvida, ele disse coisas semelhantes em outros momentos, mas essa é a fonte usual.
Nick Cox
Copiei a cotação diretamente do segmento de cotações do CV relevante.
usεr11852 diz Reinstate Monic
6
Copiei o meu da publicação original.
Nick Cox
6

Encontrei essa palestra de Thad Tarpey na JSA de 2009 para fornecer uma explicação e um comentário úteis sobre a passagem da Caixa. Ele argumenta que, se considerarmos os modelos como aproximações da verdade, poderíamos facilmente chamar todos os modelos de maneira correta.

Aqui está o resumo:

Os estudantes de estatística são frequentemente apresentados à famosa citação de George Box: "todos os modelos estão errados, alguns são úteis". Nesta palestra, argumento que essa citação, embora útil, está errada. Uma perspectiva diferente e mais positiva é reconhecer que um modelo é simplesmente um meio de extrair informações de interesse dos dados. A verdade é infinitamente complexa e um modelo é meramente uma aproximação à verdade. Se a aproximação for ruim ou enganosa, o modelo será inútil. Nesta palestra, dou exemplos de modelos corretos que não são verdadeiros. Ilustro como a noção de um modelo "errado" pode levar a conclusões erradas.

Dimitriy V. Masterov
fonte
3

Para mim, o insight real está no seguinte aspecto:

Um modelo não precisa estar correto para ser útil.

Infelizmente, em muitas ciências, esquece-se frequentemente que os modelos não precisam necessariamente ser representações exatas da realidade para permitir novas descobertas e previsões!

Portanto, não perca seu tempo construindo um modelo complicado que precisa de medições precisas de uma infinidade de variáveis. O verdadeiro gênio inventa um modelo simples que faz o trabalho.

user12719
fonte
3

Um modelo não pode fornecer previsões 100% precisas se houver alguma aleatoriedade nos resultados. Se não houvesse incerteza, aleatoriedade e erro, isso seria considerado um fato e não um modelo. O primeiro é muito importante, porque os modelos são freqüentemente usados ​​para modelar expectativas de eventos que não ocorreram. Isso quase garante que haja alguma incerteza sobre os eventos reais.

Dada a informação perfeita, em teoria pode ser possível criar um modelo que dê previsões perfeitas para eventos precisamente conhecidos. No entanto, mesmo dadas essas circunstâncias improváveis, esse modelo pode ser tão complexo a ponto de ser computacionalmente inviável de usar, e pode ser preciso apenas em um momento específico, enquanto outros fatores mudam a forma como os valores mudam com os eventos.

Como a incerteza e a aleatoriedade estão presentes na maioria dos dados do mundo real, os esforços para obter um modelo perfeito são um exercício fútil. Em vez disso, é mais valioso procurar obter um modelo suficientemente preciso, simples o suficiente para ser utilizado em termos de dados e computação necessários para seu uso. Embora esses modelos sejam imperfeitos, algumas dessas falhas são bem conhecidas e podem ser consideradas para tomada de decisão com base nos modelos.

Modelos mais simples podem ser imperfeitos, mas também são mais fáceis de raciocinar, comparar um com o outro e podem ser mais fáceis de trabalhar, porque provavelmente são menos exigentes em termos de computação.

David Burton
fonte
3

Se eu puder, apenas mais um comentário pode ser útil. A versão do prase que eu prefiro é

(...) todos os modelos são aproximações. Essencialmente, todos os modelos estão errados, mas alguns são úteis (...)

retirado das superfícies de resposta, misturas e análises de cume de Box e Draper (2007, p. 414, Wiley). Olhando para a citação estendida, fica mais claro o que Box quis dizer - modelagem estatística é sobre aproximar a realidade e a aproximação nunca é exata, portanto, é sobre encontrar a aproximação mais apropriada . O que é apropriado para seu objetivo é uma coisa subjetiva, por isso não é um dos modelos que é útil, mas possivelmente alguns deles são, dependendo do objetivo da modelagem.

Tim
fonte
3

Como ninguém o adicionou, George Box usou a fase citada para introduzir a seção a seguir em um livro. Eu acredito que ele faz o melhor trabalho para explicar o que ele quis dizer:

PV=RTPVTR

Para esse modelo, não há necessidade de fazer a pergunta "O modelo é verdadeiro?". Se a "verdade" deve ser a "verdade completa", a resposta deve ser "Não". A única questão de interesse é "O modelo é esclarecedor e útil?".

Box, GEP (1979), "Robustez na estratégia de construção de modelos científicos", em Launer, RL; Wilkinson, GN, Robustez em Estatística , Academic Press, pp. 201-236.

Tavrock
fonte
2

Você pode pensar dessa maneira. a complexidade máxima (isto é, entropia) de um objeto obedece a alguma forma do limite de Bekenstein :

I2πREcln2

ER

Esse é um grande número, na maioria dos casos:

2.58991·1042Ω=2I107.79640·1041

Então você quer usar "o melhor mapa", ou seja, o próprio território, com todas as equações de onda para todas as partículas em todas as células? Absolutamente não. Não apenas seria um desastre computacional, mas você modelaria coisas que podem não ter nada a ver com o que você gosta. Se tudo o que você deseja é identificar, digamos, se estou acordado ou não, não precisa saber o que o elétron # 32458 está fazendo no neurônio # 844030 ribossomo # 2305 molécula # 2. Se você não modela isso, seu modelo está realmente "errado", mas se você pode identificar se estou acordado ou não, seu modelo é definitivamente útil.

estrela Brilhante
fonte
2

Acho que Peter e user11852 deram ótimas respostas. Eu também acrescentaria (por negação) que, se um modelo fosse realmente bom, provavelmente seria inútil por causa do ajuste excessivo (portanto, não generalizável).

Thomas Speidel
fonte
2
+1 para o ponto de sobreajuste. Algoritmos como Naive Bayes e análise discriminante linear geralmente funcionam muito bem, mesmo se você souber que o modelo subjacente está incorreto (por exemplo, filtragem de spam), simplesmente porque são necessários menos dados para estimar os parâmetros.
Dikran Marsupial
1

Minha interpretação ácida é: acreditar que um modelo matemático descreve exatamente todos os fatores e suas interações, governando um fenômeno de interesse, seria simplista e arrogante demais. Nem sabemos se a lógica que usamos é suficiente para entender nosso universo. No entanto, alguns modelos matemáticos representam uma aproximação suficientemente boa (em termos do método científico) que são úteis para tirar conclusões sobre esse fenômeno.

H2SO4
fonte
1

Como astrostatístico (talvez uma raça rara), considero infeliz a fama do ditado de Box. Nas ciências físicas, geralmente temos um forte consenso para entender os processos subjacentes a um fenômeno observado, e esses processos podem ser expressos por modelos matemáticos decorrentes das leis da gravitação, mecânica quântica, termodinâmica etc. Os objetivos estatísticos são estimar as propriedades físicas dos parâmetros do modelo de melhor ajuste, bem como a seleção e validação do modelo. Um caso dramático recente surgiu a partir da publicação de março de 2013 de documentos do satélite Planck da Agência Espacial Europeiamedições do fundo cósmico de microondas que de forma convincente estabelece um modelo simples de `` LambdaCDM '' de 6 parâmetros para o Big Bang. Duvido que o ditado de Box se aplique em qualquer lugar dentro da ampla gama de métodos estatísticos avançados usados ​​nesses 29 artigos.

Eric Feigelson
fonte
1

Acabei de reformular a resposta acima considerando os modelos de processo como ponto de foco. A declaração pode ser interpretada da seguinte maneira:

"Todos os modelos estão errados", isto é, todo modelo está errado porque é uma simplificação da realidade. Alguns modelos estão apenas um pouco errados. Eles ignoram algumas coisas, por exemplo: -> alteração de requisitos, -> ignorando a conclusão do projeto dentro do prazo, -> não considerando o nível de qualidade desejado pelo cliente, etc ... Outros modelos estão muito errados - eles ignoram coisas maiores. Os modelos clássicos de processos de software ignoram muito em comparação com os modelos de processos ágeis que ignoram menos.

"Mas alguns são úteis" - simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e entender o projeto geral e todos os seus vários componentes. Os modelos são usados ​​porque seus recursos correspondem à maioria dos programas de desenvolvimento de software.

Srinath
fonte
0

Eu gostaria de dar outra interpretação do termo "útil". Provavelmente não foi o que Box pensou.

Quando você tiver que tomar decisões, e é para isso que todas as informações serão finalmente usadas, será necessário medir seu sucesso de alguma forma. Ao falar sobre decisões com informações incertas, essa medida geralmente é chamada de utilidade.

Portanto, também podemos pensar em modelos úteis como aqueles que nos permitem tomar decisões mais informadas; para alcançar nossos objetivos de forma mais eficaz.

Isso adiciona outra dimensão sobre os critérios usuais, como a capacidade de um modelo de prever algo corretamente: nos permite avaliar os diferentes aspectos que um modelo tem sobre o outro.

ziggystar
fonte
-2

"Todos os modelos estão errados, mas alguns são úteis". Talvez isso signifique: Deveríamos estar fazendo o melhor possível com o que sabemos + buscar novas aprendizagens?

Jan
fonte
4
(-1) Você pode fornecer alguma referência sugerindo que o GEP Box quis dizer isso? Como você pode encontrar nas outras respostas, ele quis dizer algo totalmente diferente.
Tim
O PO talvez esteja pegando a citação e dando uma nova interpretação. Concordo com Tim que Box estava dizendo mais ou menos que não tome o modelo como uma interpretação exata da realidade, mas reconheço que algum modelo pode descrever bem os dados.
Michael Chernick