Estou usando o Bayes para resolver um problema de cluster. Depois de fazer alguns cálculos, acabo com a necessidade de obter a razão de duas probabilidades:
para obter . Essas probabilidades são obtidas pela integração de dois KDEs multivariados 2D diferentes, conforme explicado nesta resposta :
onde f ( x , y ) e g ( x , y ) são as KDES e a integração é feita para todos os pontos abaixo dos limiares de f ( r um , é um ) e g ( r b , s b ) . Ambos os KDEs usam um kernel gaussiano . Uma imagem representativa de um KDE semelhante à que eu estou trabalhando pode ser vista aqui: Integrando o estimador de densidade de kernel em 2D .
Eu calculo os KDEs por meio da python
função stats.gaussian_kde , então assumo a seguinte forma geral:
Onde n
está o comprimento da minha matriz de pontos e h
a largura de banda usada.
As integrais acima são calculadas aplicando um processo de Monte Carlo, que é bastante computacionalmente caro. Eu li em algum lugar (esqueci onde, desculpe) que, em casos como este, é possível substituir a proporção de probabilidades pela proporção de PDFs (KDEs) avaliados nos pontos de limiar para obter resultados igualmente válidos. Estou interessado nisso, porque calcular a proporção do KDEs é uma ordem de magnitude mais rápida que calcular a proporção das integrais com o MC.
Portanto, a questão é reduzida à validade dessa expressão:
Em que circunstâncias, se houver, posso dizer que essa relação é verdadeira?
[erro de digitação fixo (EDIT)]
Adicionar :
Aqui está basicamente a mesma pergunta, mas feita de uma forma mais matemática .
P(X)
qual estou tentando evitar calcular. Você poderia expandir um pouco a relevância desse parâmetro?Respostas:
O KDE é uma mistura de distribuições normais. Vamos dar uma olhada em um deles.
As definições de e P ( B ) mostram que seus valores são invariantes em traduções e redimensionamentos no plano, portanto basta considerar a distribuição normal padrão com o PDF f . A desigualdadeP(A) P(B) f
é equivalente a
A introdução das coordenadas polares permite que a integral seja reescritaρ,θ
Agora considere a mistura. Por ser linear,
De fato, e P são proporcionais.f P A constante de proporcionalidade é .2πh2
Que tal relação de proporcionalidade entre e f seja especialP f pode ser apreciada contemplando-se um simples contra-exemplo. Deixe- tem uma distribuição uniforme sobre um conjunto mensurável Um 1 de unidade de área e f 2 têm uma distribuição uniforme sobre um conjunto mensurável Um 2 que é separado a partir de um 1 e tem área μ > 1 . Em seguida, a mistura com PDF f = f 1 / 2 + f 2 / 2 tem um valor constante /f1 A1 f2 A2 A1 μ>1 f=f1/2+f2/2 em A 1 , 1 / ( 2 μ ) em A 2 e é zero em outro lugar. Há três casos a considerar:1/2 A1 1/(2μ) A2
. Aqui f ( r , s ) = 1 / 2 atinge o seu máximo, de onde P ( r , s ) = 1 . A proporção de f ( r , s ) / P ( r , s ) = 1 / 2 .(r,s)∈A1 f(r,s)=1/2 P(r,s)=1 f(r,s)/P(r,s)=1/2
Elsewhere,f is zero and the integral P is zero.
Evidently the ratio (where it is defined) is not constant and varies between1 and 1/μ≠1 . Although this distribution is not continuous, it can be made so by adding a Normal(0,Σ) distribution to it. By making both eigenvalues of Σ small, this will change the distribution very little and produce qualitatively the same results--only now the values of the ratio f/P will include all the numbers in the interval [1,1/μ] .
This result also does not generalize to other dimensions. Essentially the same calculation that started this answer shows thatP is an incomplete Gamma function and that clearly is not the same as f . That two dimensions are special can be appreciated by noting that the integration in P essentially concerns the distances and when those are Normally distributed, the distance function has a χ2(2) distribution--which is the exponential distribution. The exponential function is unique in being proportional to its own derivative--whence the integrand f and integral P must be proportional.
fonte