Estou lendo um livro Gaussian Process for Machine Learning de CE Rasmussen e CKI Williams e estou tendo alguns problemas para entender o que significa distribuição por funções . No livro, é dado um exemplo, de que se deve imaginar uma função como um vetor muito longo (de fato, deve ser infinitamente longo?). Então, imagino que uma distribuição sobre funções seja uma distribuição de probabilidade desenhada "acima" desses valores vetoriais. Seria então uma probabilidade de que uma função aceite esse valor específico? Ou seria uma probabilidade de uma função assumir um valor que esteja em um determinado intervalo? Ou a distribuição sobre funções é uma probabilidade atribuída a uma função inteira?
Citações do livro:
Capítulo 1: Introdução, página 2
Um processo gaussiano é uma generalização da distribuição de probabilidade gaussiana. Enquanto uma distribuição de probabilidade descreve variáveis aleatórias que são escalares ou vetores (para distribuições multivariadas), um processo estocástico governa as propriedades das funções. Deixando de lado a sofisticação matemática, pode-se pensar vagamente em uma função como um vetor muito longo, cada entrada no vetor especificando o valor da função f (x) em uma entrada específica x. Acontece que, embora essa idéia seja um pouco ingênua, é surpreendentemente próxima do que precisamos. De fato, a questão de como lidamos computacionalmente com esses objetos dimensionais infinitos tem a resolução mais agradável que se possa imaginar: se você solicitar apenas as propriedades da função em um número finito de pontos,
Capítulo 2: Regressão, página 7
Existem várias maneiras de interpretar os modelos de regressão do processo Gaussiano (GP). Pode-se pensar em um processo gaussiano como definindo uma distribuição sobre funções e a inferência ocorrendo diretamente no espaço das funções, a visão do espaço da função.
Da pergunta inicial:
Eu fiz essa imagem conceitual para tentar visualizar isso por mim mesmo. Não tenho certeza se essa explicação que fiz foi correta.
Após a atualização:
Após a resposta de Gijs , atualizei a imagem para ser conceitualmente mais algo como isto:
fonte
Respostas:
O conceito é um pouco mais abstrato do que uma distribuição usual. O problema é que são utilizadas para o conceito de uma distribuição de mais deR , tipicamente mostrada como uma linha, e, em seguida, expandi-lo a uma superfície de R2 , e assim por diante para distribuições mais de Rn . Mas o espaço das funções não pode ser representado como um quadrado, uma linha ou um vetor. Não é um crime para pensar dessa maneira, como você faz, mas a teoria que funciona em Rn , tendo a ver com a distância, bairros e tal (isto é conhecido como a topologia do espaço), não são os mesmos no espaço de funções. Portanto, desenhá-lo como um quadrado pode fornecer intuições erradas sobre esse espaço.
Você pode simplesmente pensar no espaço de funções como uma grande coleção de funções, talvez um saco de coisas, se quiser. A distribuição aqui fornece as probabilidades de desenhar um subconjunto dessas coisas. A distribuição dirá: a probabilidade de seu próximo sorteio (de uma função) estar nesse subconjunto é de, por exemplo, 10%. No caso de um processo gaussiano em funções em duas dimensões, você pode perguntar, dado um
x
-coordenado e um intervalo dey
-valores, este é um pequeno segmento de linha vertical. Qual é a probabilidade de uma função (aleatória) passar por essa pequena linha? Essa será uma probabilidade positiva. Portanto, o processo gaussiano especifica uma distribuição (de probabilidade) sobre um espaço de funções. Neste exemplo, o subconjunto do espaço de funções é o subconjunto que passa pelo segmento de linha.fonte
Sua pergunta já foi feita, e lindamente respondida, no site Mathematics SE:
/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions
Parece que você não está familiarizado com os conceitos de medidas gaussianas em espaços de dimensão infinita , funcionais lineares, medidas pushforward etc. etc., portanto, tentarei mantê-lo o mais simples possível.
No entanto, há também um "truque" simples baseado no teorema da extensão Kolmogorov , que é basicamente o modo como os processos estocásticos são introduzidos na maioria dos cursos de probabilidade que não são muito teóricos da medida. Agora vou ser muito ondulado e não rigoroso, e me limitar ao caso dos processos gaussianos. Se você deseja uma definição mais geral, pode ler a resposta acima ou procurar o link da Wikipedia. O teorema da extensão Kolmogorov, aplicado ao seu caso de uso específico, afirma mais ou menos o seguinte:
O teorema atual é muito mais geral, mas acho que é isso que você estava procurando.
fonte