o que se quer dizer com integração numérica é muito caro?

12

Estou lendo sobre a inferência bayesiana e me deparei com a frase "a integração numérica da probabilidade marginal é muito cara"

Eu não tenho formação em matemática e queria saber o que exatamente significa caro aqui? É apenas em termos de poder computacional ou há algo mais.

discretetimeisnice
fonte
6
Isso significa que é preciso muito poder computacional, provavelmente em termos de tempo de CPU (já que todos os recursos de computação são todos essencialmente memória ou CPU).
Sycorax diz Restabelecer Monica
3
Na verdade, a largura de banda da comunicação pode se tornar um problema às vezes (por exemplo, entre cache / RAM / disco em série ou entre nós de computação em paralelo).
GeoMatt22
Isso significa que leva muito tempo, para um único computador, ou para uma rede de computadores, realizar a computação.
Jack Maddington
2
E se a probabilidade marginal é necessária dentro de algum ciclo, o que conta como muito caro é muito menor. Por exemplo. A 1 sons segundo rotina de integração rápida, mas pode ser "demasiado caro" se você precisa fazê-lo 1 milhão de vezes ...
Matthew Gunn
Caro em termos de esforço computacional, pois é necessário mais esforço para computá-lo do que você pode pagar, pois leva muito tempo ou precisa de muitos processadores para fazê-lo em um tempo razoável.
user253751

Respostas:

16

No contexto de problemas computacionais, incluindo métodos numéricos para inferência bayesiana, a frase "muito caro" geralmente pode se referir a duas questões

  1. um problema específico é "grande" demais para calcular um " orçamento " específico
  2. uma abordagem geral escala mal, ou seja, possui alta complexidade computacional

Nos dois casos, os recursos computacionais que compõem o "orçamento" podem consistir em itens como ciclos de CPU ( complexidade de tempo ), memória ( complexidade de espaço ) ou largura de banda de comunicação ( dentro ou entre nós de computação). Na segunda instância, "muito caro" significaria intratável .

No contexto da computação bayesiana, a cotação provavelmente se refere a problemas de marginalização de um grande número de variáveis .

Por exemplo, o resumo deste artigo recente começa

A integração é afetada pela maldição da dimensionalidade e rapidamente se torna intratável à medida que a dimensionalidade do problema aumenta.

e continua dizendo

Propomos um algoritmo aleatório que ... por sua vez, pode ser usado, por exemplo, para computação marginal ou seleção de modelo.

(Para comparação, este capítulo recente do livro discute métodos considerados "não muito caros".)

GeoMatt22
fonte
4
Esta é uma ótima resposta. Vou acrescentar, porém, que "caro" também pode ser cada vez mais literal. - pode-se aumentar drasticamente o poder e o armazenamento computacional (para os níveis de supercomputadores, pelo tempo que for necessário), com muita facilidade nos dias de hoje (e muito barato) ... mas, para grandes problemas, ainda será muito caro - - na medida em que literalmente custará mais dinheiro real do que você tem disponível.
Glen_b -Reinstala Monica
1
@Glen_b esse é um bom ponto! Eu imagino que este significado é menos comum no publicou literatura ... mas mais comum em propostas (e seus comentários!)
GeoMatt22
@ GeoMatt22 Na verdade, é outra maneira de afirmar o mesmo significado, se você pensar sobre isso.
user253751
@ GeoMatt22 Obrigado! Agora entendo perfeitamente o que significa caro em um contexto bayesiano.
Discretetimeisnice
10

Vou dar um exemplo em caso discreto para mostrar por que a integração / soma total é muito cara.

Suponha que tenhamos 100 variáveis ​​aleatórias binárias e temos a distribuição conjunta P(X1,X2,,X100). (De fato, é impossível armazenar a distribuição conjunta em uma tabela, porque existem2100valores. Vamos supor que temos isso na tabela e na RAM agora.)

Para obter uma distribuição marginal em P(X1), precisamos somar outras variáveis ​​aleatórias. (No caso contínuo, ele é integrado ao longo.)

P(X1)=X2X3X100P(X1,X2,,X100)

Estamos resumindo 99 variáveis, portanto, há número de exponenciação de operações, neste caso, é 299, que é um número enorme que todos os computadores do mundo não conseguirão fazer.

Na literatura de modelos gráficos probabilísticos , essa maneira de calcular a distribuição marginal é chamada de abordagem de "força bruta" para realizar "inferência". Pelo nome, podemos saber que é caro. E as pessoas usam muitas outras maneiras de realizar a inferência, por exemplo, obtendo a distribuição marginal de forma eficaz. "Outras formas", incluindo inferência aproximada , etc.

Haitao Du
fonte
3
Maybe you could also comment on why Bayesian approach is helpful here, as the question raised in this context.
Tim
5

Usually when performing Bayesian inference it's easy to encounter heavy integration over nuisance variables for instance. Another example can be a numerical sampling as in this case from a likelihood function, meaning to perform a random sampling from a given distribution. As the number of model parameters increases, this sampling becomes extremely heavy and various computational methods have been developed to speed up the procedure and allow very fast implementations, keeping of course a high level of accuracy. These tecniques are for instance MC, MCMC, Metropolis ecc. Take a look in Bayesian data analysis by Gelman et. al it should give you a broad introduction! good luck

Lcol
fonte
3
This answer doesn't seem to address the OP's main question around the meaning of "expensive" in this context. Or at least not very clearly.
Shufflepants
The short explanation is to introduce the reader to the meaning of computational demand when performing specific analysis in Bayesian statistic, since it stated to be not a mathematician. Anyway hope it was clear to someone
Lcol