Um valor de distribuição de probabilidade superior a 1 pode ser bom?

149

Na página da Wikipedia sobre classificadores ingênuos de Bayes , existe esta linha:

p(heEught|mumaeue)=1.5789 (Uma distribuição de probabilidade acima de 1 é OK. É a área sob a curva da campainha que é igual a 1.)

Como um valor ser bom? Eu pensei que todos os valores de probabilidade estavam expressos no intervalo . Além disso, como é possível ter esse valor, como esse valor é obtido no exemplo mostrado na página?0 p 1>10 0p1

babelproofreader
fonte
2
Quando vi que pensei que poderia ser a altura da função de densidade de probabilidade que pode ser qualquer número positivo, desde que esteja integrada em qualquer intervalo, a integral é menor ou igual a 1. A Wikipedia deve corrigir essa entrada.
Michael Chernick 5/05
16
Como isso pode ajudar futuros leitores, ofereço uma tradução geométrica da parte geral desta pergunta: "Como uma forma cuja área não excede pode se estender mais de em qualquer direção?" Especificamente, a forma é a parte do meio plano superior delimitada acima pelo gráfico do PDF e a direção em questão é vertical. No cenário geométrico (desprovido da interpretação da probabilidade), é fácil pensar em exemplos, como um retângulo de base não superior a e altura . 1 1 / 2 2111/22
whuber
o artigo da Wikipedia agora usa letras minúsculas ppara a densidade de probabilidade e letras maiúsculas Ppara a probabilidade
13:00
Só vou deixar isso aqui para o próximo cara: en.wikipedia.org/wiki/Dirac_delta_function
Joshua
Vale ressaltar que uma Função de Distribuição Cumulativa (a integral do PDF) não pode ultrapassar 1. O CDF é muito mais intuitivo de usar em muitos casos.
naught101 27/03

Respostas:

167

Essa página do Wiki está abusando da linguagem, referindo-se a esse número como uma probabilidade. Você está certo de que não é. Na verdade, é uma probabilidade por pé . Especificamente, o valor de 1.5789 (para uma altura de 6 pés) implica que a probabilidade de uma altura entre, por exemplo, 5,99 e 6,01 pés, seja próxima ao seguinte valor sem unidade:

1.5789[1/]×(6.01-5,99)[pés]=0,0316

Este valor não deve exceder 1, como você sabe. (O pequeno intervalo de alturas (0,02 neste exemplo) é uma parte crucial do aparato de probabilidade. É o "diferencial" da altura, que abreviarei .) As probabilidades por unidade de algo são chamado densidades por analogia com outras densidades, como massa por unidade de volume.d(altura)

As densidades de probabilidade de boa-fé podem ter valores arbitrariamente grandes, mesmo que infinitos.

Distribuição gama

Este exemplo mostra a função de densidade de probabilidade para uma distribuição gama (com parâmetro de forma de e escala de ). Como a maior parte da densidade é menor que , a curva precisa subir mais que para ter uma área total de conforme necessário para todas as distribuições de probabilidade.1 / 5 1 1 13/21/5111

Distribuição beta

Essa densidade (para uma distribuição beta com os parâmetros ) torna-se infinita em e em . A área total ainda é finita (e é igual a )!0 1 11/2,1/100 011


O valor de 1.5789 / pé é obtido nesse exemplo, estimando-se que as alturas dos machos têm uma distribuição normal com média de 5.855 pés e variação de 3.50e-2 pés quadrados. (Isso pode ser encontrado em uma tabela anterior.) A raiz quadrada dessa variação é o desvio padrão, 0,18717 pés. Expressamos novamente 6 pés como o número de SDs a partir da média:

z=(6-5.855)/0,18717=0,7747

A divisão pelo desvio padrão produz uma relação

dz=d(altura)/0,18717

A densidade de probabilidade Normal, por definição, é igual a

12πexp(-z2/2)dz=0,29544 d(altura)/0,18717=1.5789 d(altura).

(Na verdade, eu trapacei: eu simplesmente pedi ao Excel para calcular NORMDIST (6, 5.855, 0.18717, FALSE). Mas então eu realmente verifiquei a fórmula, apenas para ter certeza.) Quando removemos o diferencial essencial da fórmula, apenas o número permanece, como o sorriso do gato de Cheshire. Nós, leitores, precisamos entender que o número deve ser multiplicado por uma pequena diferença de altura para produzir uma probabilidade.1.5789d(altura)1.5789

whuber
fonte
Observo que o exemplo dado nessa página wiki usa densidades de probabilidade em vez de probabilidades reais para o cálculo de posteriores, presumivelmente porque o aspecto por unidade não é necessário para fins comparativos se as unidades comparadas forem as mesmas. Estendendo isso, se alguém não quiser assumir a normalidade, mas possuir dados empíricos dos quais a densidade pode ser estimada, por exemplo, uma estimativa da densidade do kernel, seria válido usar uma leitura em um determinado valor no eixo x deste kde como entrada para o cálculo de posteriores em um classificador ingênuo de bayes, assumindo igual por unidades?
babelproofreader
1
@babelproofreader Acredito que os posteriores são atualizações bayesianas, através dos dados de treinamento, dos anteriores. Não está claro como um kde pode ser interpretado da mesma forma, mas eu não sou especialista nesta área. Sua pergunta é interessante o suficiente para você poder publicá-la separadamente.
whuber
Como você determina o que é um bom diferencial? E se você tivesse escolhido um diferencial de 1? a probabilidade seria então maior que 1? Desculpe pela minha confusão aqui. Você pode explicar?
Fiacobelli 10/10
3
@tree A área de um triângulo é metade do produto do comprimento de sua base e altura.
whuber
1
@ user929304 Você pode consultar qualquer livro teórico que agrade a você: isso faz parte dos fundamentos da probabilidade e da estatística. Esse conceito específico de densidade de probabilidade é bem discutido nos melhores livros introdutórios, como Freedman, Pisani e Purves .
whuber
43

Esse é um erro comum de não entender a diferença entre as funções de massa de probabilidade, onde a variável é discreta, e as funções de densidade de probabilidade, onde a variável é contínua. Consulte O que é uma distribuição de probabilidade :

Se as funções de probabilidade contínua são definidas para um número infinito de pontos em um intervalo contínuo, a probabilidade em um único ponto é sempre zero. As probabilidades são medidas em intervalos, não em pontos únicos. Ou seja, a área sob a curva entre dois pontos distintos define a probabilidade desse intervalo. Isso significa que a altura da função de probabilidade pode de fato ser maior que um. A propriedade que a integral deve ser igual a uma é equivalente à propriedade para distribuições discretas que a soma de todas as probabilidades deve ser igual a uma.

Tristan
fonte
14
O NIST geralmente é autoritário, mas aqui é tecnicamente incorreto (e sem esquemas para inicializar): ter uma probabilidade definida em "um número infinito de pontos" não implica que "a probabilidade em um único ponto seja sempre zero". É claro que eles estão apenas evitando uma distração sobre infinitas cardinalidades, mas o raciocínio aqui é enganoso. Seria melhor para eles omitir a primeira frase da citação.
whuber
23

[uma,b]1/(b-uma)b-uma11/(b-uma)

[0 0,0,5]1/(0,5-0 0)=2[0 0,0,1]10


fonte
4

Não sei se o artigo da Wikipedia foi editado após as postagens iniciais deste tópico, mas agora diz "Observe que um valor maior que 1 está OK aqui - é uma densidade de probabilidade e não uma probabilidade, porque a altura é uma variável contínua. ", e pelo menos nesse contexto imediato, P é usado para probabilidade ep é usado para densidade de probabilidade. Sim, muito desleixado, pois o artigo usa p em alguns lugares para significar probabilidade e em outros lugares como densidade de probabilidade.

Voltar à pergunta original "Um valor de distribuição de probabilidade superior a 1 pode ser bom?" Não, mas já vi isso (veja meu último parágrafo abaixo).

Veja como interpretar uma probabilidade> 1. Primeiro, observe que as pessoas podem e fazem um esforço de 150%, como geralmente ouvimos em esportes e, às vezes, trabalhamos em https://www.youtube.com/watch?v=br_vSdAOHQQ . Se você tem certeza de que algo acontecerá, essa é uma probabilidade de 1. Uma probabilidade de 1,5 pode ser interpretada, pois você tem 150% de certeza de que o evento acontecerá - como se esforçar 150%.

E se você pode ter uma probabilidade> 1, suponho que você possa ter uma probabilidade <0. Probabilidades negativas podem ser interpretadas da seguinte maneira. Uma probabilidade de 0,001 significa que quase não há chance do evento acontecer. Probabilidade = 0 significa "de jeito nenhum". Uma probabilidade negativa, como -1,2, corresponde a "Você está brincando".

PyPyPyPyPyPyPyPypara subir para cerca de 1,8. E foi assim que a barreira da unidade foi quebrada em probabilidade. Mas o cara não sabia que ele havia realizado esse feito pioneiro até que eu o indiquei, tendo realizado cálculos rápidos em uma calculadora científica Casio do tamanho de um cartão de crédito alimentado por bateria em uma sala escura de conferência (não poderia ter feito isso com uma calculadora movida a energia solar). Isso seria como Chuck Yeager saindo para dar uma volta no domingo em seu avião, e apenas sendo informado meses depois de ter quebrado a barreira do som.

Mark L. Stone
fonte
História legal. Você tem mais alguma informação sobre isso, como uma citação?
Jay Schyler Raadt
1
@ Jay Schyler Raadt Isso está documentado em stats.stackexchange.com/questions/4220/… , ha ha.
Mark L. Stone
0

Xf(x)f(x)dxf(x)f(altura|masculino)f(altura|masculino)daltura

XP(X[x,x+dx))=f(x)dxP(X[uma,b])=umabf(x)dxP(X=x)=P(X[x,x])=0 0

Esmailiano
fonte
-1

O valor do ponto em um valor de parâmetro específico de um gráfico de densidade de probabilidade seria uma probabilidade, certo? Nesse caso, a instrução pode ser corrigida simplesmente alterando P (altura | masculino) para L (altura | masculino).

Michael Lew
fonte