O que exatamente é uma distribuição?

16

Conheço muito pouco de Probabilidade e Estatística e desejo aprender. Vejo a palavra "distribuição" usada em todo o lugar em diferentes contextos.

Por exemplo, uma variável aleatória discreta tem uma "distribuição de probabilidade". Eu sei o que é isso. Uma variável aleatória contínua possui uma função de densidade de probabilidade; então, para xR , a integral de a x da função de densidade de probabilidade é a função de distribuição cumulativa avaliada em x .

E, aparentemente, apenas "função de distribuição" é sinônimo de "função de distribuição cumulativa", pelo menos quando se fala em variáveis ​​aleatórias contínuas (pergunta: elas sempre são sinônimos?).

Depois, existem muitas distribuições famosas. Γ distribuição χ2 distribuição, etc. Mas o que exatamente é um Γ distribuição? É a função de distribuição cumulativa de um Γ variável aleatória? Ou a função de densidade de probabilidade de uma Γ variável aleatória?

Porém, uma distribuição de frequência de um conjunto de dados finitos parece ser um histograma.

Para encurtar a história: em Probabilidade e Estatística, qual é a definição da palavra "distribuição"?

Conheço a definição de distribuição em Matemática (um elemento do espaço duplo da coleção de funções de teste equipadas com a topologia de limite indutivo), mas não Probabilidade e Estatística.

danzibr
fonte
11
O artigo correspondente da Wikipedia parece ser uma introdução decente ao tópico.
Aleksandr Blekh 18/04/2015
11
Estritamente, 'distribuição' e 'cdf' devem ser considerados sinônimos, mas 'distribuição' é frequentemente usada em um sentido muito mais frouxo e geralmente usada para realmente se referir a uma densidade / pmf.
Glen_b -Reinstala Monica
3
Seu entendimento de uma distribuição é bem parecido com o da probabilidade; a principal diferença é que aqueles em probabilidade desfrutam de algumas propriedades adicionais (de serem positivas e normalizadas à unidade). A conexão é que sua definição estabelece uma distribuição em termos do operador de expectativa associado. Há também um abuso (sério) de linguagem predominante nas estatísticas, que também chama uma família de distribuições parametrizada de "distribuição". Finalmente, qualquer conjunto de dados finitos determina uma distribuição obtida por amostragem, sua "distribuição empírica".
whuber
@whuber Isso ajuda, obrigado Em particular, o abuso de linguagem. Seria como chamar a integral indefinida de uma função ... uma função.
Danzibr 19/04
Uma pergunta semelhante com boas respostas: stats.stackexchange.com/questions/210403/...
b Kjetil Halvorsen

Respostas:

7

O seguinte é para valorizado aleatórias-variáveis. A extensão para outros espaços é simples se você estiver interessado. Eu argumentaria que a seguinte definição um pouco mais geral é mais intuitiva do que separadamente, considerando as funções de densidade, massa e distribuição cumulativa.R

Incluo alguns termos matemáticos / probabilísticos no texto para corrigi-lo. Se alguém não está familiarizado com esses termos, a intuição é igualmente bem compreendida apenas ao pensar em "conjuntos de Borel" como "qualquer subconjunto de que eu possa pensar", e na variável aleatória o resultado numérico de algum experimento com um probabilidade associada.R


Deixe ser um espaço de probabilidade e X ( ω ) um de R - valorizado variável aleatória neste espaço.(Ω,F,P)X(ω)R

A função conjunto , onde A é um conjunto de Borel, chama-se a distribuição de X .Q(A):=P(ωΩ:X(ω)A)AX

Em palavras, a distribuição informa (vagamente), para qualquer subconjunto de , a probabilidade de X assumir um valor nesse conjunto. Pode-se provar que Q é completamente determinado pela função F ( x ) : = P ( X x ) e vice-versa. Para fazer isso - e pulo os detalhes aqui - construa uma medida nos conjuntos de Borel que atribua a probabilidade F ( x ) a todos os conjuntos ( - , x ) e defenda que essa medida finita concorda com Q em umRXQF(x):=P(Xx)F(x)(,x)Qπ sistema gerar o Borel álgebra.σ

Se acontecer que pode ser escrito como Q ( A ) = A f ( x ) d x, então f é uma função de densidade para Q e você pode ver, embora essa densidade não seja determinada exclusivamente (considere as alterações em conjuntos de Lebesgue medem zero), faz sentido falar também de f como a distribuição de XQ(A)Q(A)=Af(x)dxfQfX . Normalmente, no entanto, nós o chamamos a função densidade de probabilidade de .X

Da mesma forma, se acontecer que possa ser escrito como Q ( A ) = i A { , - 1 , 0 , 1 , } f ( i ) , então faz sentido falar de f como a distribuição de X, embora normalmente a chamemos de função de massa de probabilidade.Q(A)Q(A)=iA{,1,0,1,}f(i)fX

Assim, sempre que você lê algo como " segue uma distribuição uniforme em [ 0 , 1 ] ", significa simplesmente que a função Q ( A ) , que indica a probabilidade de X assumir valores em determinados conjuntos, é caracterizada pela função densidade de probabilidade f ( x ) = I [ 0 , 1 ] ou a função de distribuição cumulativa F ( x ) = x - f ( t )X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

Uma observação final sobre o caso em que não há menção a uma variável aleatória, mas apenas a uma distribuição. Pode-se provar que, dada uma função de distribuição (ou uma função de distribuição de massa, densidade ou cumulativa), existe um espaço de probabilidade com uma variável aleatória que possui essa distribuição. Portanto, não há essencialmente nenhuma diferença em falar sobre uma distribuição ou sobre uma variável aleatória que possui essa distribuição. É apenas uma questão de foco.

ekvall
fonte
3

(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB. The distribution of X is the probability measure μX(X,B)μX(B)=P(XB). When X=R and B is the Borel sigma-field, we refer to the function X as a random "variable".

Zen
fonte
1
must be very clear to people with little knowledge of probability and statistics :)
Alexey Grigorev
3
Well, the OP seems to know advanced math stuff such as "element of the dual space of the collection of test functions equipped with the inductive limit topology". Check the end of his question.
Zen
2
It was indeed a good response for me. I needed to check the definition of a probability space, but for a person with a math background, it was clear. I appreciated the answer's concision, only not accepting it due to the detail in the other answer.
danzibr
1

The question and answers so far seem to have focused on theoretical distributions. Empirical distributions provide a more intuitive understanding of distributions.

Example

During a class tournament in skipping rope we observe all the kids in a class skipping rope. The first kid is able to jump twice, the second four times, the next one fifteen times, etc. We record the number of jumps. Five of the kids jumped eight times each, but only one of the kids jumped twice. We say that jumping eight times is differently distributed than jumping twice.

An ostensive definition for an observed distribution is the frequency of occurrences for each observed value of a variable.

In inferential statistics we then try to fit theoretical distributions to the observed distributions, because we would like to work with the assumptions of the theoretical distributions. You can reach a similar definition for theoretical distributions by replacing "observed" with "observerable" or to be more precise: "expected".

noumenal
fonte