Em termos leigos, qual é a diferença entre um modelo e uma distribuição?

28

As respostas (definições) definidas na Wikipedia são indiscutivelmente um pouco enigmáticas para aqueles que não estão familiarizados com matemática / estatística mais alta.

Em termos matemáticos, um modelo estatístico é normalmente considerado como um par ( $S, \mathcal{P}$ ), em que é o conjunto de observações possíveis, isto é, o espaço de amostragem, e é um conjunto de distribuição de probabilidades em . $S$ $\mathcal{P}$ $S$

Em probabilidade e estatística, uma distribuição de probabilidade atribui uma probabilidade a cada subconjunto mensurável dos possíveis resultados de um experimento aleatório, pesquisa ou procedimento de inferência estatística. São encontrados exemplos cujo espaço de amostra não é numérico, em que a distribuição seria uma distribuição categórica.

Eu sou um estudante do ensino médio muito interessado neste campo como hobby e atualmente estou lutando com as diferenças entre o que é um statistical modele umprobability distribution

Meu entendimento atual e muito rudimentar é este:

modelos estatísticos são tentativas matemáticas para aproximar distribuições medidas
distribuições de probabilidade são descrições medidas de experimentos que atribuem probabilidades a cada resultado possível de um evento aleatório

confusão é ainda agravada pela tendência na literatura de ver as palavras "distribuição" e "modelo" usadas de forma intercambiável - ou pelo menos em situações muito semelhantes (por exemplo, distribuição binomial versus modelo binomial)

Alguém pode verificar / corrigir minhas definições e talvez oferecer uma abordagem mais formalizada (embora ainda em termos de inglês simples) para esses conceitos?

distributions model terminology AlanSTACK
fonte

11

Conclusão: não há absolutamente nenhuma diferença entre um modelo estatístico e uma distribuição de probabilidade. Todo modelo estatístico descreve uma distribuição de probabilidade e vice-versa. Não deixe que eles o confundam com textos longos.

Cagdas Ozgenc

3

@Cagdas acordo com a definição citada na questão, não é uma diferença: um modelo estatístico é uma coleção organizada particular de distribuições de probabilidade. Quando apenas uma distribuição de probabilidade está em evidência, não estamos mais fazendo estatística, porque o objetivo da análise estatística foi alcançado: conhecemos a distribuição!

whuber

2

@cagdas A Wikipedia acompanha os melhores textos. Eu concordo plenamente com isso.

whuber

4

@CagdasOzgenc, por que não apresentar algumas evidências para fundamentar suas afirmações nítidas e definidas. Prova de autoridade raramente (se alguma vez) é aceitável. Sem diferença, é difícil (se não impossível) ter uma discussão produtiva; reivindicações sem fundamento raramente são muito mais que ruídos.

Richard Hardy

2

@RichardHardy A pergunta fez "termos leigos" e veja as respostas que obteve. Com licença, mas odeio ver os alunos sofrerem apenas porque alguém decide se exibir. A resposta é tão simples quanto 2 + 2 = 4, e realmente não acho que exija uma referência autorizada de 20 páginas.

Cagdas Ozgenc

25

A distribuição de probabilidade é uma função matemática que descreve uma variável aleatória. Um pouco mais precisamente, é uma função que atribui probabilidades a números e sua saída precisa concordar com axiomas de probabilidade .

O modelo estatístico é uma descrição abstrata idealizada de algum fenômeno em termos matemáticos usando distribuições de probabilidade. Citando Wasserman (2013):

Um modelo estatístico é um conjunto de distribuições (ou densidades ou funções de regressão). Um modelo paramétrico é um conjunto que pode ser parametrizado por um número finito de parâmetros. [...] $\mathfrak{F}$ $\mathfrak{F}$

Em geral, um modelo paramétrico assume a forma

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
onde é um parâmetro desconhecido (ou vetor de parâmetros) que pode receber valores no espaço de parâmetros . Se é um vetor, mas estamos interessados apenas em um componente de , chamamos os parâmetros restantes de parâmetros incômodos . Um modelo não paramétrico é um conjunto que não pode ser parametrizado por um número finito de parâmetros. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

Em muitos casos, usamos distribuições como modelos (você pode verificar este exemplo ). Você pode usar a distribuição binomial como um modelo de contagem de cabeças em séries de lançamentos de moedas. Nesse caso, assumimos que essa distribuição descreve, de maneira simplificada, os resultados reais. Isso não significa que essa seja a única maneira de descrever esse fenômeno, nem que a distribuição binomial seja algo que possa ser usado apenas para esse fim. O modelo pode usar uma ou mais distribuições, enquanto os modelos bayesianos também especificam distribuições anteriores.

Mais formalmente, isso é discutido por McCullaugh (2002):

De acordo com as teorias atualmente aceitas [Cox e Hinkley (1974), capítulo 1; Lehmann (1983), capítulo 1; Barndorff-Nielsen e Cox (1994), Seção 1.1; Bernardo e Smith (1994), Capítulo 4] um modelo estatístico é um conjunto de distribuições de probabilidade no espaço de amostra . Um parametrizado modelo estatístico é um parâmetro definido em conjunto com uma função , que atribui a cada ponto parâmetro uma distribuição de probabilidade em . Aqui é o conjunto de todos $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ distribuições de probabilidade em . Em muitos dos itens a seguir, é importante distinguir entre o modelo como uma função e o conjunto associado de distribuições . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Portanto, os modelos estatísticos usam distribuições de probabilidade para descrever dados em seus termos. Modelos paramétricos também são descritos em termos de conjunto finito de parâmetros.

Isso não significa que todos os métodos estatísticos precisam de distribuições de probabilidade. Por exemplo, a regressão linear é frequentemente descrita em termos de suposição de normalidade , mas, na verdade, é bastante robusta para desviar-se da normalidade e precisamos supor sobre a normalidade dos erros para intervalos de confiança e teste de hipóteses. Portanto, para que a regressão funcione, não precisamos dessa suposição, mas para ter um modelo estatístico totalmente especificado, precisamos descrevê-lo em termos de variáveis aleatórias, então precisamos de distribuições de probabilidade. Escrevo sobre isso porque muitas vezes você pode ouvir as pessoas dizendo que usaram o modelo de regressão para seus dados - na maioria dos casos, eles querem dizer que descrevem dados em termos de relação linear entre valores-alvo e preditores usando alguns parâmetros, do que insistindo em condicionais normalidade.

McCullagh, P. (2002). O que é um modelo estatístico? Anais de estatística, 1225-1267.

Wasserman, L. (2013). Todas as estatísticas: um curso conciso de inferência estatística. Springer.

Tim
fonte

4

@ JCLeitão é por isso que adicionei o aviso;) O OLS clássico é apenas sobre o ajuste da linha. As premissas de normalidade são apenas sobre o ruído, enquanto a idéia central é que estamos modelando E (y) como uma função linear de X. A normalidade é necessária para intervalos e testes de confiança, mas a regressão é sobre o ajuste da linha e os erros são de menor importância. (Vagamente falando.)

Tim

Obrigado pela sua resposta. Você poderia fornecer duas definições concisas para resumir? (também não entendo a última linha

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Você está apenas comentando a ambiguidade inerente entre os dois significados que compartilham o mesmo termo modelou estou perdendo alguma coisa?

AlanSTACK 3/16

A definição concisa do @Alan two é fornecida nos dois primeiros parágrafos, enquanto a mais rigorosa na citação e nas referências - você poderia esclarecer o que não está claro? Quanto à última linha de citação: basicamente diz que o modelo é definido em termos de distribuições e parâmetros de probabilidade e é bom lembrar que há esses dois aspectos, às vezes é bom distingui-los. Eu recomendo o artigo citado para uma discussão rigorosa (está disponível gratuitamente no link).

Tim

8

Pense em como um conjunto de tickets . Você pode escrever coisas em um ticket. Normalmente, um ticket começa com o nome de uma pessoa ou objeto do mundo real que "representa" ou "modelos". Há muito espaço em branco em cada ticket para escrever outras coisas. $\mathcal{S}$

Você pode fazer quantas cópias de cada ticket quiser. Um modelo de probabilidade para essa população ou processo do mundo real consiste em fazer uma ou mais cópias de cada ticket, misturá-las e colocá-las em uma caixa. Se você - o analista - puder estabelecer que o processo de retirar um ticket aleatoriamente desta caixa simula todo o comportamento importante do que você está estudando, então você pode aprender muito sobre o mundo pensando nessa caixa. Como alguns ingressos podem ser mais numerosos do que outros, eles podem ter chances diferentes de serem sorteados. A teoria da probabilidade estuda essas chances. $\mathbb{P}$

Quando os números são escritos nos tickets (de maneira consistente), eles dão origem a distribuições (de probabilidade). Uma distribuição de probabilidade apenas descreve a proporção de tickets em uma caixa cujos números se encontram dentro de um determinado intervalo.

Como geralmente não sabemos exatamente como o mundo se comporta, precisamos imaginar caixas diferentes nas quais os tickets aparecem com diferentes frequências relativas. O conjunto destas caixas é . Vemos o mundo como sendo adequadamente descrito pelo comportamento de uma das caixas de . É seu objetivo fazer palpites razoáveis sobre qual caixa é, com base no que você vê nos bilhetes que você retirou dela. $\mathcal{P}$ $\mathcal{P}$

Como exemplo (que é prático e realista, não um brinquedo de livro didático), suponha que você esteja estudando a taxa de uma reação química, pois ela varia com a temperatura. Suponha que a teoria da química preveja que dentro da faixa de temperaturas entre e graus, a taxa é proporcional à temperatura. $y$ $0$ $100$

Você planeja estudar essa reação a e graus, fazendo várias observações a cada temperatura. Portanto, você cria um número muito, muito grande de caixas. Você vai preencher cada caixa com ingressos. Há uma constante de taxa escrita em cada um. Todos os ingressos em qualquer caixa têm a mesma constante de taxa gravada neles. Caixas diferentes usam constantes de taxa diferentes. $0$ $100$

Usando a constante de taxa gravada em qualquer ticket, você também anota a taxa em e a taxa em graus: chame esses e . Mas isso ainda não é suficiente para um bom modelo. Os químicos também sabem que nenhuma substância é pura, nenhuma quantidade é medida exatamente e outras formas de variabilidade observacional ocorrem. Para modelar esses "erros", você faz muitas cópias de seus tickets. Em cada cópia, você altera os valores de e . Na maioria deles, você os altera apenas um pouco. Em muito poucos, você pode alterá-los bastante. Você anota quantos valores alterados planeja observar a cada temperatura. Estes $0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ As observações representam possíveis resultados observáveis do seu experimento. Na caixa, vá para cada conjunto desses tickets: é um modelo de probabilidade para o que você pode observar para uma determinada taxa constante.

O que você não observar é modelado pelo desenho de um bilhete de que a caixa e só lendo as observações escritas lá. Você não consegue ver os valores subjacentes (verdadeiros) de ou . Você não consegue ler a constante da taxa (verdadeira). Isso não é permitido pelo seu experimento. $y_0$ $y_{100}$

Todo modelo estatístico deve fazer algumas suposições sobre os tickets nessas caixas (hipotéticas). Por exemplo, esperamos que, quando você modificou os valores de e , o fez sem aumentar nem diminuir consistentemente nenhum dos dois (como um todo, dentro da caixa): isso seria uma forma de viés sistemático. $y_0$ $y_{100}$

Como as observações escritas em cada ticket são números, elas dão origem a distribuições de probabilidade. As suposições feitas sobre as caixas são tipicamente formuladas em termos de propriedades dessas distribuições, como se elas devem ter uma média de zero, ser simétricas, ter uma forma de "curva em sino", não serem correlacionadas ou o que seja.

Isso é realmente tudo o que existe. Da mesma maneira que uma escala primitiva de doze tons deu origem a toda a música clássica ocidental, uma coleção de caixas contendo ingressos é um conceito simples que pode ser usado de maneiras extremamente ricas e complexas. Ele pode modelar praticamente qualquer coisa, variando de uma moeda a uma biblioteca de vídeos, bancos de dados de interações com sites, conjuntos de mecânica quântica e qualquer outra coisa que possa ser observada e gravada.

whuber
fonte

3

$\pi$

Modelos estatísticos paramétricos típicos descrevem como o (s) parâmetro (s) de uma distribuição depende de certas coisas, como fatores (uma variável que possui valores discretos) e covariáveis (variáveis contínuas). Por exemplo, se em uma distribuição normal você assume que a média pode ser descrita por algum número fixo (uma "interceptação") e algum número (um "coeficiente de regressão") multiplicado pelo valor de uma covariável, você obtém um modelo de regressão linear com um termo de erro normalmente distribuído. Para uma distribuição binomial, um modelo comumente usado ("regressão logística" $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Björn
fonte

2

Sim, mas ... O modelo não é apenas sobre parâmetros, mas também pode ser sobre a estrutura do problema (por exemplo, modelo probabilístico que se assemelha ao processo de geração de dados assumido); também existem modelos não paramétricos.

Tim

2

Uma distribuição de probabilidade fornece todas as informações sobre como uma quantidade aleatória flutua. Na prática, geralmente não temos a distribuição de probabilidade completa de nossa quantidade de interesse. Podemos saber ou assumir algo sobre isso sem saber ou assumir que sabemos tudo sobre ele. Por exemplo, podemos assumir que alguma quantidade é normalmente distribuída, mas não sabemos nada sobre a média e a variação. Em seguida, temos uma coleção de candidatos para a distribuição; no nosso exemplo, todas as distribuições normais são possíveis. Essa coleção de distribuições forma um modelo estatístico. Nós o usamos reunindo dados e depois restringindo nossa classe de candidatos, para que todos os demais candidatos sejam consistentes com os dados em algum sentido apropriado.

Ian
fonte

2

Um modelo é especificado por um PDF, mas não é um PDF.

A distribuição de probabilidades (PDF) é uma função que atribui probabilidades a números e sua saída precisa concordar com axiomas de probabilidade, como Tim explicou .

Um modelo é totalmente definido por uma distribuição de probabilidade, mas é mais do que isso. No exemplo do lançamento de moedas, nosso modelo pode ser "a moeda é justa" + "cada lançamento é independente". Este modelo é especificado por um PDF que é um binomial com p = 0,5.

$P(x_1, x_2, x_3, ...)$

Uma distinção entre o modelo e o PDF é que um modelo pode ser interpretado como uma hipótese estatística. Por exemplo, no lançamento de moedas, podemos considerar o modelo em que a moeda é justa (p = 0,5), e que cada lançamento é independente (binomial), e dizer que esta é a nossa hipótese, que queremos testar contra uma hipótese concorrente. .

$p$ $p$

Jorge Leitao
fonte

Você pode elaborar sua última frase? Isso parece ser uma parte importante das estatísticas não paramétricas, para mim.

312 Ian

Sempre interpretei modelos não paramétricos como menos restritivos no PDF de x_i, mas que ainda exigem um PDF para as estatísticas que eles usam. Por exemplo, a correlação de classificação de Kendal assume normalidade para calcular o valor-p . Mas pode ser que exista um contra-exemplo. Eu estaria interessado.

Jorge Leitao

Só não entendo o que você quer dizer quando diz "não faz sentido falar em PDFs concorrentes". É exatamente isso que estamos realmente fazendo, mesmo em estatísticas paramétricas: temos um monte de PDFs que achamos válidos para o problema, pegamos alguns dados e concluímos a partir dos dados que um subconjunto de nossos PDFs é melhor. Então quantificamos o que queremos dizer com "melhor". (Além disso, no contexto elementar, você realmente não deve usar "PDF" para tudo. No sentido distributivo, isso finalmente funciona, mas é um mecanismo bastante sofisticado ...)

Ian

A model is specified by a PDFDiscordo. Um modelo também pode ser especificado por vários PDFs. E um modelo pode ser especificado por nenhum PDF: pense em algo como um SVM ou uma árvore de regressão.

Ricardo Cruz

2

Você faz uma pergunta muito importante, Alan, e recebeu algumas boas respostas acima. Gostaria de oferecer uma resposta mais simples e também indicar uma dimensão adicional à distinção que as respostas acima não abordaram. Por simplicidade, tudo o que direi aqui se refere a modelos estatísticos paramétricos .

$y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ $b$ $k$

Portanto, minha breve resposta 1 à sua pergunta é: um modelo estatístico é uma família de distribuições.

O outro ponto que eu queria enfatizar diz respeito ao qualificador, estatístico . Como Judea Pearl aponta em sua "regra de ouro da análise causal" [1, p350],

Nenhuma afirmação causal pode ser estabelecida por um método puramente estatístico, seja pontuação de propensão, regressão, estratificação ou qualquer outro projeto baseado em distribuição.

$F=-kx$ ie de declarações sobre distribuições de probabilidade.

Assim, minha resposta 2 à sua pergunta é: os modelos geralmente incorporam idéias causais que não podem ser expressas em termos puramente distributivos.

[1]: Pérola, Judéia. Causalidade: Modelos, Raciocínio e Inferência. 2ª edição. Cambridge, Reino Unido; Nova York: Cambridge University Press, 2009. Link para § 11.3.5, incluindo citado p. 351

David C. Norris
fonte

Perdoe minha ignorância, mas o que você quer dizer com a palavra causal? Existe algum significado mais sutil para ele ou simplesmente se refere à noção causalitye relações vinculadas entre causese effects? Obrigado pela sua resposta, btw.

AlanSTACK 4/16

F

$F$

x

$x$

F = - k x

$F=-kx$

=

$=$

David C. Norris

Em termos leigos, qual é a diferença entre um modelo e uma distribuição?

Respostas: