"A área total abaixo de uma função de densidade de probabilidade é 1"

20

Conceitualmente, entendo o significado da frase "a área total sob um PDF é 1". Isso significa que as chances de o resultado estar no intervalo total de possibilidades são de 100%.

Mas eu realmente não consigo entender do ponto de vista "geométrico". Se, por exemplo, em um PDF o eixo x representa comprimento, a área total abaixo da curva não se tornaria maior se x fosse medido em mm em vez de km?

Eu sempre tento imaginar como seria a área abaixo da curva se a função fosse achatada em uma linha reta. A altura (posição no eixo y) dessa linha seria a mesma para qualquer PDF ou teria um valor contingente no intervalo no eixo x para o qual a função está definida?

probability pdf integral TheChymera
fonte

Você poderia alterar a escala do eixo

x

$x$ de km para mm, mas qual seria esse valor? Você ainda teria exatamente a mesma imagem e mais seis zeros para unidades no eixo

x

$x$ . Você poderia aumentar ou diminuir o zoom, se desejar, mas isso não mudaria a imagem. Enquanto isso, se a curva pdf for uma linha horizontal reta (o que implica distribuição uniforme), sua posição no eixo

y

$y$ não depende das unidades do eixo

x

$x$ mas apenas do comprimento do intervalo no eixo

x

$x$ . Não tenho certeza do quanto é útil para você, mas para mim a ideia de aumentar e diminuir o zoom facilita a compreensão.

Richard Hardy

2

Isso parece ser verdade. Mas é como usar uma lente de aumento (reconhecidamente estranha) que aumenta na direção horizontal em 1000 e, ao mesmo tempo, diminui proporcionalmente na direção vertical. Mas a essência da imagem não mudará se você mudar apenas a escala.

Richard Hardy

2

Esta pergunta me parece a mesma que a solicitada (de uma maneira diferente) e respondida em stats.stackexchange.com/questions/4220/… .

whuber

1

@amoeba, Sim, embora muitos possam se sentir compelidos a votar na resposta mais longa em reconhecimento ao esforço realizado (o que eu fiz também), Aksakal respondeu à minha pergunta de maneira muito mais clara e sucinta. Para ser justo, eu diria que a resposta de Silverfish também ajudou e chegaria em um segundo próximo.

TheChymera

2

@amoeba Uma direção de resposta completamente diferente poderia ter sido o foco no fato de que os PDFs são derivados de CDFs; portanto, a área sob o PDF é simplesmente o valor limitador do CDF - que é claramente um, independentemente das unidades utilizadas. Fiquei tentado a incluir uma seção curta sobre isso, mas senti que minha resposta já era longa o suficiente (e além disso, a chave para a questão do OP parecia ser a questão das unidades, que a abordagem do CDF evita).

Silverfish

14

A função densidade de probabilidade é medida em porcentagens por unidade de medida do seu eixo x. Digamos que em um determinado ponto $x_0$ seu PDF seja igual a 1000. Isso significa que a probabilidade de $x_0<x<x_0+dx$ é $1000\,dx$ onde $dx$ está em metros. Se você alterar as unidades para centímetros, a probabilidade não deverá mudar para o mesmo intervalo, mas o mesmo intervalo terá 100 centímetros a mais que metros, então $1000\,dx=PDF'(x_0')\cdot100\,dx'$ e resolvendo, obtemos $PDF'(x_0')=\frac{PDF(x_0)}{100}$ . Há 100 vezes menos unidades de probabilidade (porcentagens) por centímetro que por metro.

Aksakal
fonte

46

Isso pode ajudá-lo a perceber que o eixo vertical é medido como uma densidade de probabilidade . Portanto, se o eixo horizontal é medido em km, o eixo vertical é medido como uma densidade de probabilidade "por km". Suponha que desenhemos um elemento retangular em uma grade com 5 "km" de largura e 0,1 "por km" de altura (que você pode preferir escrever como "km "). A área desse retângulo é de 5 km x 0,1 km = 0,5. As unidades cancelam e ficamos com apenas uma probabilidade de metade. $^{-1}$ $^{-1}$

Se você alterou as unidades horizontais para "metros", teria que alterar as unidades verticais para "por metro". O retângulo agora teria 5000 metros de largura e teria uma densidade (altura) de 0,0001 por metro. Você ainda tem uma probabilidade de metade. Você pode ficar perturbado com a aparência esquisita desses dois gráficos na página em comparação um com o outro (um não precisa ser muito maior e mais curto que o outro?), Mas quando você está desenhando fisicamente os gráficos, pode usar escala que você gosta. Olhe abaixo para ver como pouca estranheza precisa estar envolvida.

Você pode considerar útil considerar histogramas antes de passar para as curvas de densidade de probabilidade. De muitas maneiras, eles são análogos. O eixo vertical de um histograma é a densidade de frequência [por unidade] $x$ e as áreas representam frequências, novamente porque as unidades horizontais e verticais se cancelam após a multiplicação. A curva PDF é uma espécie de versão contínua de um histograma, com frequência total igual a uma.

Uma analogia ainda mais próxima é um histograma de frequência relativa - dizemos que esse histograma foi "normalizado", de modo que os elementos de área agora representam proporções do seu conjunto de dados original em vez de frequências brutas, e a área total de todas as barras é uma. As alturas agora são densidades de frequência relativa [por unidade] $x$ . Se um histograma de frequência relativa tiver uma barra que percorre $x$ valores de 20 km a 25 km (portanto, a largura da barra é de 5 km) e tem uma densidade de frequência relativa de 0,1 por km, então essa barra contém uma proporção de 0,5 dos dados. Isso corresponde exatamente à ideia de que um item escolhido aleatoriamente no seu conjunto de dados tem 50% de probabilidade de ficar nessa barra. O argumento anterior sobre o efeito das mudanças nas unidades ainda se aplica: compare as proporções de dados situados na barra de 20 km a 25 km com a da barra de 20.000 a 25.000 metros para essas duas parcelas. Você também pode confirmar aritmeticamente que as áreas de todas as barras somam uma em ambos os casos.

Histogramas de frequência relativa com unidades diferentes

O que eu poderia dizer com minha afirmação de que o PDF é uma "espécie de versão contínua de um histograma"? Vamos pegar uma pequena faixa sob uma curva de densidade de probabilidade, ao longo dos valores de no intervalo , para que a faixa tenha largura e a altura da curva seja aproximadamente constante . Podemos desenhar uma barra dessa altura, cuja área $x$ $[x, x + \delta x]$ $\delta x$ $f(x)$ representa a probabilidade aproximada de estar nessa faixa. $f(x) \, \delta x$

Como podemos encontrar a área sob a curva entre e ? Poderíamos subdividir esse intervalo em pequenas tiras e obter a soma das áreas das barras, $x=a$ $x=b$ , que corresponderia à probabilidade aproximada de permanecer no intervalo . Vemos que a curva e as barras não se alinham com precisão, portanto há um erro em nossa aproximação. Fazendo cada vez menor para cada barra, preenchemos o intervalo com mais e barras mais estreitas, cujo $\sum f(x) \, \delta x$ $[a,b]$ $\delta x$ fornece uma estimativa melhor da área. $\sum f(x) \, \delta x$

Para calcular a área com precisão, em vez de assumir que era constante em cada faixa, avaliamos a integral , e isso corresponde à probabilidade real de permanecer no intervalo . A integração em toda a curva fornece uma área total (ou seja, probabilidade total), pela mesma razão que a soma das áreas de todas as barras de um histograma de frequência relativa fornece uma área total (ou seja, proporção total) de uma. A integração é em si uma espécie de versão contínua da soma de uma soma. $f(x)$ $\int_a^b f(x) dx$ $[a,b]$

insira a descrição da imagem aqui

Código R para parcelas

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

Silverfish
fonte

você acertou as duas primeiras linhas, mas o resto é tão bom.

precisa saber é o seguinte

2

f (x) = F^{'} (x)

$f(x)=F'(x)$

1

@ Silverfish: Esta é a primeira vez que vi alguém usar o termo "penny drops" em inglês!

Mehrdad 14/01

1

O primeiro gráfico parece que alguém lançando o pássaro :)

Aksakal

1

@Aksakal Ooof. Eu não percebi isso. Lembre-se de não usar esse exemplo na aula sem algumas modificações. (Na mesma linha, ao fazer-se um problema para resolver no quadro, há certos números como 69 Tento evitar aparecer experiência é hard-won..)

Silverfish

7

Você já tem duas respostas, uma excelente por Silverfish , no entanto, acho que uma ilustração pode ser útil aqui, pois você perguntou sobre geometria e "imaginou" essas funções.

Vamos começar com um exemplo simples da distribuição de Bernoulli :

f (x) = {\begin{cases} p & if x = 1, \\ 1 - p & if x = 0 \end{cases}

$f(x) = \begin{cases} p & \text{if }x=1, \\[6pt] 1-p & \text {if }x=0.\end{cases}$

insira a descrição da imagem aqui

Como os valores são discretos, não há "curva", mas apenas dois pontos; no entanto, a idéia é semelhante: se você deseja conhecer a probabilidade total (área sob a curva), é necessário resumir as probabilidades dos dois resultados possíveis:

p + (1 - p) = 1

$p + (1 - p) = 1$

$p$ $1-p$

$x$ $x$ $f(x)$ $x_1$ $x_1$ $1$ $\sum \#\{x_i\}=N$ $\sum \#\{x_i\}/N=1$ $N$

insira a descrição da imagem aqui

$x$ $x$ . Portanto, se houver pontos, você não poderá vê-los, por mais que você "aumente o zoom", pois sempre poderá haver um número infinito de pontos menores entre os pontos. Por causa disso, aqui na verdade temos uma curva - você pode imaginar que ela é feita de infinitos "pontos". Você pode se perguntar: como calcular uma soma de um número infinito de probabilidades ..? No gráfico abaixo da curva vermelha, há um PDF normal e as caixas pretas são um histograma de alguns valores retirados da distribuição. Portanto, o gráfico de histograma simplificou nossa distribuição para o número finito de "caixas" com uma certa largurae se você resumisse as alturas das caixas multiplicadas pela largura delas, terminaria com uma área abaixo da curva - ou área de todas as caixas. Usamos áreas em vez de pontos aqui, pois cada caixa é um resumo de um número infinito de "pontos" que foram agrupados na caixa.

insira a descrição da imagem aqui

$f(x)$ $-2.5 - -3 = 0.5$

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

$0.5$ $1$ $1$

$1$ $1$ $f(x)$ .

$a$ $b$ $-3$ $3$

\int_{uma}^{b} f (x) d x

$\int_a^b \! f(x)\,dx$

$f(x)$ $dx$ $\int$ $\sum$

Você também perguntou sobre a distribuição "uniforme" (uniforme) :

insira a descrição da imagem aqui

$-\infty < a < b < \infty$ $1$ $-\infty$ $\infty$ $1$ $\varepsilon$ pequeno ... Portanto, este é um caso complicado e você pode imaginá-lo em termos abstratos. Observe que, como Ilmari Karonen notou no comentário, essa é uma idéia abstrata que não é realmente possível na prática (veja o comentário abaixo). Se usar essa distribuição como prévia, seria uma prévia imprópria .

$1$

Tim
fonte

1

1

$1$

X

$X$

Y

$Y$

(- \infty, \infty)

$(-\infty,\infty)$

| X | < | Y |

$|X|<|Y|$

Você está certo, "complicado" é muito informal. Eu vou fazer correções mais tarde.

Tim

0

A seguinte ideia-chave foi mencionada em um comentário, mas não em uma resposta existente ...

Uma maneira de entender as propriedades de um PDF é considerar que o PDF e o CDF estão relacionados por integração (cálculo) - e que o CDF possui uma saída monotônica que representa um valor de probabilidade entre 0 e 1.

A área total integrada sem unidade sob a curva PDF não é afetada pelas unidades do eixo X.

Simplificando ...

Area = Width x Height

Se o eixo X aumentar numericamente, devido a uma alteração nas unidades, o eixo Y deverá se tornar menor por um fator linear correspondente .

nobar
fonte

"A área total abaixo de uma função de densidade de probabilidade é 1" - em relação a quê?

Respostas: