Um modelo é ajustado aos dados ou dados são ajustados a um modelo?

20

Existe uma diferença conceitual ou processual entre ajustar um modelo aos dados e ajustar os dados ao modelo? Um exemplo da primeira redação pode ser visto em https://courses.washington.edu/matlab1/ModelFitting.html , e da segunda em https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

enjayes
fonte
7
+1 Não estou impressionado com o segundo link, mas estou entretido.
The Laconic
Muitos modelos se encaixam nos dados atuais, mas normalmente os dados se encaixam no melhor modelo
Agnius Vasiliauskas

Respostas:

35

Praticamente todas as fontes ou pessoas com quem eu já interagi, exceto a fonte da Wolfram que você vinculou, referem-se ao processo como ajustando um modelo aos dados . Isso faz sentido, já que o modelo é o objeto dinâmico e os dados são estáticos (também conhecidos como fixos e constantes).

Para colocar um ponto, eu gosto da abordagem de Larry Wasserman. Em seu relato, um modelo estatístico é uma coleção de distribuições. Por exemplo, a coleção de todas as distribuições normais:

{Normal(μ,σ):μ,σR,σ>0}

ou o conjunto de todas as distribuições Poisson:

{Poisson(λ):λR,λ>0}

Ajustar uma distribuição aos dados é qualquer algoritmo que combina um modelo estatístico com um conjunto de dados (os dados são fixos) e escolhe exatamente uma das distribuições do modelo como aquela que "melhor" reflete os dados.

O modelo é o que muda (mais ou menos): estamos reduzindo-o de uma coleção inteira de possibilidades para uma única melhor opção. Os dados são apenas os dados; nada acontece com isso.

Matthew Drury
fonte
16

No campo da modelagem de Rasch, é comum ajustar os dados ao modelo. Presume-se que o modelo esteja correto e é tarefa do analista encontrar dados que estejam em conformidade com ele. O artigo da Wikipedia sobre Rasch contém mais detalhes sobre como e por quê.

Mas eu concordo com outras pessoas que, em geral, nas estatísticas, ajustamos o modelo aos dados porque podemos alterá-lo, mas é uma má forma selecionar ou modificar os dados.

mdewey
fonte
7

Normalmente, os dados observados são fixos enquanto o modelo é mutável (por exemplo, porque os parâmetros são estimados); portanto, é o modelo que é feito para ajustar os dados, e não o contrário . (Geralmente, as pessoas se referem a esse caso quando dizem qualquer uma das expressões.)

Quando as pessoas dizem que ajustam os dados a um modelo, eu me pego tentando descobrir o que diabos eles fizeram com os dados? .

[Agora, se você estiver transformando dados , seria indiscutivelmente 'ajustar dados a um modelo', mas as pessoas quase nunca dizem isso para esse caso.]

Glen_b -Reinstate Monica
fonte
5
A remoção de valores discrepantes também (argumentavelmente) estaria "ajustando dados a um modelo".
Federico Poloni
1
O fraseado pode fazer sentido se eles estiverem pensando nisso como "ajuste (dados para um modelo)". Ou seja, você está executando um processo de ajuste, e esse processo de ajuste começa nos dados e os transforma em um modelo. Concordo que é uma interpretação menos comum / precisa em relação à análise "(ajustando X) a Y", mas apresento como uma justificativa do por que alguém pode dizer isso logicamente.
RM
1
Os Outliers do @FedericoPoloni geralmente são definidos independentemente do modelo que você deseja usar posteriormente. Portanto, mesmo se quisermos chamá-lo de dados adequados, não seria um modelo, mas outra coisa.
BartoszKP 24/03
1
+1. Há uma razão para isso ser chamado de "dados" - é o que é dado , veja a origem latina da palavra: latindictionary.wikidot.com/verb:dare
Christoph Hanck em
2

Normalmente, assumimos que nossos dados correspondem ao "mundo real" e, ao fazer qualquer modificação, estamos deixando de modelar o "mundo real". Por exemplo, é preciso ter cuidado ao remover os valores discrepantes, pois mesmo que isso melhore a computação, os discrepantes ainda faziam parte de nossos dados.

Ao testar um modelo ou estimar propriedades de um estimador usando bootstrap ou outras técnicas de reamostragem, podemos simular novos dados usando um modelo estimado e nossos dados originais. Isso pressupõe que o modelo está correto e não estamos modificando nossos dados originais.

qwr
fonte