Por que as pessoas usam o termo “peso da evidência” e como ele difere de “informações mútuas pontuais”?

11

Aqui, "peso da evidência" (WOE) é um termo comum na literatura científica e de elaboração de políticas, mais frequentemente vista no contexto da avaliação de riscos, definida por:

w(e:h)=logp(e|h)p(e|h¯)

onde é evidência, h é hipótese.eh

Agora, quero saber qual é a principal diferença com o PMI (informações mútuas pontuais)

pmi(e,h)=logp(e,h)p(e)p(h)
Charlie Epps
fonte
Eu acredito que o termo foi cunhado neste trabalho: projecteuclid.org/...
JohnRos

Respostas:

5

Mesmo parecendo semelhantes, são coisas bem diferentes. Vamos começar com as principais diferenças.

  • é algo diferente no PMI e no WOEh
    Observe o termo no PMI. Isso implica que h é uma variável aleatória da qual você pode calcular a probabilidade. Para um bayesiano, isso não é problema, mas se você não acredita que as hipóteses podem ter uma probabilidadea priori,você não pode nem escrever o PMI para hipóteses e evidências. No WOE, h é um parâmetro da distribuição e as expressões são sempre definidas.p(h)hh

  • PMI é simétrico, WOE não é
    trivialmente, . No entanto, w ( h : e ) = log p ( h | e ) / p ( h | ˉ e ) não precisa ser definido devido ao termo ˉ e . Mesmo quando é, geralmente não é igual a w ( e : hpmi(e,h)=pmi(h,e)W(h:e)=registrop(h|e)/p(h|e¯)e¯ .W(e:h)

Fora isso, WOE e PMI têm semelhanças.

O peso da evidência diz o quanto a evidência fala em favor de uma hipótese. Se for 0, significa que não fala a favor nem contra. Quanto mais alto, mais valida a hipótese , e quanto menor, mais valida ˉ h .hh¯

As informações mútuas quantificam como a ocorrência de um evento ( ou h ) diz algo sobre a ocorrência do outro evento. Se for 0, os eventos são independentes e a ocorrência de um não diz nada sobre o outro. Quanto mais alto, mais frequentemente eles co-ocorrem e, quanto menor, mais eles se excluem mutuamente.eh

E os casos em que a hipótese também é uma variável aleatória e ambas as opções são válidas? Por exemplo, na comunicação através de um canal barulhento binário, a hipótese é h o sinal emitido para decodificar e a evidência é o sinal recebido. Dizer que a probabilidade de inversão é 1 / 1000 , de modo que se você receber um 1 , o AI para 1 é log 0,999 / 0,001 = 6,90 . O PMI, por outro lado, depende da probabilidade de emitir um 1 . Você pode verificar que, quando a probabilidade de emitir 1 tende a 0, o PMI tende a 6,90.hh1 1/10001 11 1registro0,999/0,001=6,901 11 16,90, enquanto tende a quando a probabilidade de emitir um 1 tende a 1 .0 01 11 1

Esse comportamento paradoxal ilustra duas coisas:

  1. Nenhum deles é adequado para adivinhar a emissão. Se a probabilidade de emissão de um cai abaixo de 1 / 1000 , a emissão mais provável é 0 até ao receber um um . No entanto, para pequenas probabilidades de emitir 1, o WOE e o PMI estão próximos de 6,90 .1 11 1/10000 01 11 16,90

  2. O PMI é um ganho de informações (de Shannon) sobre a realização da hipótese; se a hipótese é quase certa, nenhuma informação é obtida. O WOE é uma atualização de nossas probabilidades anteriores , que não depende do valor dessas probabilidades.

gui11aume
fonte
Isso pode ser uma coisa notável, mas no WMI, como você define sem definir p ( h ) ? Você não está indo com p ( e | h ) = p ( e , h )p(e|h)p(h) ? p(e|h)=p(e,h)p(h)
Mike Battaglia
11
Eu suponho que você quer dizer WOE. Pense em como um parâmetro de distribuição, de uma distribuição Poisson, por exemplo. Nesse caso, p ( e | h ) é apenas a probabilidade e você não precisa definir p ( h ) . Na verdade, você não precisa acreditar que isso tenha algum significado. hp(e|h)p(h)
gui11aume