Como uma distribuição de probabilidade pode divergir?

8

Como, por exemplo, a distribuição Gama diverge perto de zero (para um conjunto apropriado de parâmetros de escala e forma, digamos forma e escala ), e ainda tem sua área igual a um?= 10=0.1=10

Pelo que entendi, a área de uma distribuição de densidade de probabilidade deve sempre ser igual a um. Se você usar a distribuição delta dirac, que diverge em zero, mas é zero em qualquer outro lugar, você tem uma área igual a uma.

De alguma forma, se você escolher a área de uma distribuição Gamma divergente, poderá expressá-la como a área de uma distribuição dirac delta, além de algo mais, pois ela tem peso diferente de zero em , portanto seria maior que um.x0

Alguém pode me explicar onde meu raciocínio está errado?

Delphine
fonte
1
Existem muitas distribuições (como a distribuição normal) que são definidas em toda a linha real, são todos os lugares, mas possuem área finita. Pegue (no quadrante principal) essa distribuição e vire-a na linha . Agora você tem uma distribuição com a mesma área que diverge em . >0x=yx=0
BlueRaja - Danny Pflughoeft
Olhe para cima "Paradoxo de Zenão" - que poderia ser interessante para você aqui
shadowtalker
@Delphine Hora de tomar a teoria das medidas! boa sorte!
Bdeonovic 7/04

Respostas:

8

De alguma forma, se você escolher a área de uma distribuição Gamma divergente, poderá expressá-la como a área de uma distribuição dirac delta, além de algo mais, pois ela tem peso diferente de zero em , portanto seria maior que um.x0

É aí que seu raciocínio dá errado: você não pode expressar automaticamente qualquer função que seja infinita em como uma distribuição delta mais algo mais. Afinal, se você poderia fazer isso com , quem diria que você também não poderia fazer isso com ? Ou ? Ou qualquer outro coeficiente? É igualmente válido dizer que essas distribuições são zero para e infinitas em ; por que não usar o mesmo raciocínio com eles?δ ( x ) 2 δ ( x ) 10 - 10 δ ( x ) x 0 x = 0x=0δ(x)2δ(x)1010δ(x)x0x=0

Na verdade, as distribuições (no sentido matemático da teoria da distribuição) devem ser pensadas mais como funções de funções - você coloca uma função e obtém um número. Para a distribuição delta especificamente, se você colocar a função , obtém o número . As distribuições não são funções normais de número para número. Eles são mais complicados e mais capazes do que essas funções "comuns".f ( 0 )ff(0)

Essa idéia de transformar uma função em um número é bastante familiar para quem está acostumado a lidar com a probabilidade. Por exemplo, as séries de momentos de distribuição - média, desvio padrão, assimetria, curtose e assim por diante - podem ser pensadas como regras que transformam uma função (a distribuição de probabilidade) em um número (o momento correspondente). Pegue o valor médio / expectativa, por exemplo. Essa regra transforma uma distribuição de probabilidade no número , calculado como Ou a regra de variação torna no número , onde E P [ x ] E P [ x ] = P ( x )P(x)EP[x]P ( x ) σ 2 P σ 2 P [ x ] = P ( x )

EP[x]=P(x)x dx
P(x)σP2
σP2[x]=P(x)(xEP[x])2 dx
Minha anotação é um pouco estranha aqui, mas espero que você entenda. 1 1

Você pode perceber algo que essas regras têm em comum: em todas elas, a maneira como você passa da função para o número é integrando a função vezes a outra função de ponderação. Essa é uma maneira muito comum de representar distribuições matemáticas. Portanto, é natural se perguntar: existe alguma função de ponderação que permite representar a ação de uma distribuição delta como esta? Você pode facilmente estabelecer que, se houver uma função, ela deve ser igual a em cada . Mas você não pode obter um valor paraf δ ( x )δ(x)0 x 0 δ ( 0 ) δ ( 0 )

fδ(x)f(x) dx
0x0δ(0)nesse caminho. Você pode mostrar que é maior que qualquer número finito, mas não existe um valor real para que faça essa equação funcionar, usando as idéias padrão de integração. 2δ(0)

A razão para isso é que há mais na distribuição delta do que apenas isso: Esse " " é enganoso. Ele representa todo um conjunto extra de informações sobre a distribuição delta que as funções normais simplesmente não podem representar. E é por isso que você não pode dizer de forma significativa que a distribuição gama é "mais" que a distribuição delta. Certamente, em qualquer , o valor da distribuição gama é maior que o valor da distribuição delta, mas todas as informações úteis sobre a distribuição delta estão bloqueadas nesse ponto em e essas informações são muito ricas. e complexo para permitir que você diga que uma distribuição é mais que a outra.x>0x=0

{0,x0,x=0
x>0x=0

Detalhes técnicos

1 Na verdade, você pode mudar as coisas e pensar na própria distribuição de probabilidade como a distribuição matemática. Nesse sentido, a distribuição de probabilidade é uma regra que assume uma função de ponderação, como ou , para um número, ou respectivamente. Se você pensar dessa maneira, a notação padrão faz um pouco mais de sentido, mas acho que a ideia geral é um pouco menos natural para um post sobre distribuições matemáticas.( x - E [ x ] ) 2 E [ x ] σ 2 xx(xE[x])2E[x]σx2

2 Especificamente, por "idéias padrão de integração", estou abordando a integração de Riemann e Lebesgue , ambas com a propriedade de que duas funções que diferem apenas em um único ponto devem ter a mesma integral (dados os mesmos limites). Se houvesse uma função , ela diferiria da função em apenas um ponto, ou seja, e, portanto, as integrais das duas funções sempre teriam que ser as mesmas. Portanto, não há um número ao qual você possa atribuir que faz reproduzir o efeito da distribuição delta.δ(x)0x=0

abδ(x)f(x) dx=ab(0)f(x) dx=0
δ(0)
David Z
fonte
10

O delta do Dirac não é realmente muito útil aqui (embora seja interessante), porque a distribuição Gamma tem uma densidade contínua, enquanto o Dirac é o mais contínuo possível.

Você está certo de que a integral de uma densidade de probabilidade deve ser uma (vou me ater às densidades definidas apenas no eixo positivo),

0f(x)dx=1.

No caso Gamma, a densidade diverge de , então temos o que é chamado de integral incorreta . Nesse caso, a integral é definida como o limite conforme os limites da integração se aproximam do ponto em que o integrando não está definido,f(x)x0

0f(x)dx:=lima0af(x)dx,

enquanto esse limite existir .

(Aliás, usamos o mesmo abuso de notação para dar um significado ao símbolo " ", que é definido como o limite da integral como , novamente enquanto isso limite existe Portanto, neste caso particular, temos dois pontos problemáticos -. , onde o integrando não está definido, e ., onde não podemos avaliar a integral diretamente precisamos trabalhar com limites em ambos os casos).b b 0 bb0

Para a distribuição Gamma especificamente, nós meio que contornamos o problema. Primeiro, definimos a função Gamma da seguinte maneira:

Γ(k):=0yk1eydy.

Em seguida, provamos que essa definição realmente faz sentido, no sentido dos diferentes limites descritos acima. Para simplificar, podemos manter aqui , embora a definição possa ser estendida para (muitos) valores complexos também. Essa verificação é uma aplicação padrão de cálculo e um bom exercício.kk>0k

Em seguida, substituímos por e pela fórmula de mudança de variáveis ​​obtemosθ > 0x:=θyθ>0

Γ(k)=0xk1exθθkdx,

a partir do qual obtemos isso

1=0xk1exθΓ(k)θkdx.

Ou seja, o integrando se integra a um e, portanto, é uma densidade de probabilidade. Chamamos isso de distribuição Gamma com forma escala .θkθ

Agora, percebo que realmente passei o dinheiro aqui. A base do argumento reside no fato de que a definição da função Gamma acima faz sentido. No entanto, este é um cálculo direto, não estatístico, por isso me sinto um pouco culpado por indicar você ao seu livro de cálculo favorito e à marca de função gama no Math.SO , especialmente esta e esta questão .

Stephan Kolassa
fonte
Eu realmente deveria voltar aos meus livros, já faz um tempo! Obrigado pela resposta detalhada!
Delphine
7

Considere uma densidade exponencial padrão e considere um gráfico de vs (painel esquerdo no diagrama abaixo).y = f ( x ) xf(x)=exp(x),x>0y=f(x)x

Presumivelmente, você não acha insondável que exista densidade positiva para todos os mas a área ainda é .1x>01

Agora vamos troca e ... que é deixar , ou , para . Agora, essa é uma densidade válida, que assina o eixo (portanto, é ilimitada como ), mas sua área é claramente idêntica à exponencial (ou seja, a área sob a curva ainda deve ser 1 - tudo o que fizemos foi refletir a forma e a reflexão preservam a área).xyx=exp(y)y=ln(x)0<x1yx0

insira a descrição da imagem aqui

Claramente, então, as densidades podem ser ilimitadas, mas têm a área 1.

Glen_b -Reinstate Monica
fonte
4

Esta é realmente uma questão de cálculo, em vez de estatística. Você está perguntando como uma função que chega ao infinito em alguns valores de seu argumento ainda pode ter uma área finita sob a curva?

É uma pergunta válida. Por exemplo, se em vez da função Gamma você adotou uma hipérbole: , para , a área sob a curva não converge, é infinita.y=1/xx=[0,)

insira a descrição da imagem aqui

Portanto, é milagroso que uma soma ponderada de números muito grandes ou mesmo infinitos, de alguma forma, converja para um número finito. A soma é ponderada porque, se você olhar para a definição integral de Riemann, pode ser uma soma assim: Portanto, dependendo de quais pontos você escolhe, os pesos podem ser pequenos ou grandes. Quando você se aproxima de 0, fica maior, mas o fica menor. Nesta competição, vence e a integral não converge.

01/xdx=limni=0nΔxixi
xiΔxi1/xiΔxi1/xi

Na distribuição Gamma, isso acontece para que encolha mais rápido que o PDF Gamma cresce, e a área acaba sendo finita. É um cálculo direto para ver exatamente como ele converge para 1.Δxi

Aksakal
fonte
0

Veja o exemplo a seguir. Observe que para qualquer finito ,N

0N1xdx=log(N)log(0)

mas é indefinido, portanto a integral é em algum sentido (isso tem um limite, mas ignore-o). Maslog(0)

0N1xdx=N0=N

Em geral, isso se baseia na ideia de que

1xpdx=x1p

portanto, se o teorema fundamental do cálculo diz que a integral é finita. Portanto, a idéia é que ele diverja lentamente o suficiente (onde é a velocidade) para que a área ainda esteja delimitada.p1p>0p

Isso é semelhante à convergência de séries. Lembre-se de que, pelo teste p, temos esse

01xp

converge se e somente se . Nesse caso, precisamos de rápido o suficiente, onde mais uma vez é a velocidade e é o ponto de viragem.x pp 1p>1xpp1

Por que isso pode ser algo real? Pense no floco de neve Koch . Neste exemplo, você continua adicionando o perímetro do floco de neve de forma que a área esteja crescendo lentamente. Isso se deve ao fato de que se você criar um triângulo equilátero com lados de tamanho , o perímetro será 1 enquanto a área for 11311230.05. Como a área é muito menor que o perímetro (é a multiplicação de dois números pequenos em vez da adição!), Você pode optar por adicionar triângulos de forma que o perímetro chegue ao infinito enquanto a área permanece finita. Para fazer isso, você deve escolher uma velocidade na qual os triângulos vão a zero e, como você provavelmente já deve ter adivinhado, existe uma velocidade na qual ela muda de muito lenta e dando área infinita para ser rápida o suficiente para fornecer área finita.

No total, o cálculo nos diz que nem todas as singularidades (que o que esses "vão para os pontos infinitos" como zero são) são iguais. Existem enormes diferenças baseadas na "velocidade local" da singularidade. simplesmente possui uma singularidade que é "suficientemente lenta" para que a área seja finita. Se você quiser aprender mais sobre as singularidades "por que" funcionam assim, poderá se aprofundar muito mais em Análise Complexa e em seu estudo das singularidades de funções analíticas complexas (das quais é).ΓΓΓ

Chris Rackauckas
fonte
Isso é um monte de pontos positivos, obrigado! Vou lembrar disso
Delphine