Inferência sem probabilidade - o que isso significa?

11

Recentemente, tomei consciência de que métodos "sem probabilidade" são analisados ​​na literatura. No entanto, não sei ao certo o que significa um método de inferência ou otimização sem probabilidade .

No aprendizado de máquina, o objetivo geralmente é maximizar a probabilidade de alguns parâmetros se ajustarem a uma função, por exemplo, os pesos em uma rede neural.

Então, qual é exatamente a filosofia de uma abordagem sem probabilidade e por que redes adversárias, como as GANs, se enquadram nessa categoria?

Maduro
fonte

Respostas:

10

Existem muitos exemplos de métodos que não se baseiam em probabilidades nas estatísticas (não sei sobre aprendizado de máquina). Alguns exemplos:

  1. Testes de significância pura de Fisher . Baseado apenas em uma hipótese nula nitidamente definida (como nenhuma diferença entre o leite primeiro e o leite por último no experimento Lady Tasting Tea. Essa suposição leva a uma distribuição de hipóteses nulas e, em seguida, a um valor de p. Sem probabilidade envolvida. Esse mecanismo inferencial mínimo não pode, por si só, fundamentar a análise de poder (nenhuma alternativa formalmente definida) ou os intervalos de confiança (nenhum parâmetro formalmente definido).

  2. Associado a 1. há testes de randomização Diferença entre o teste de randomização e o teste de permutação , que em sua forma mais básica é um teste de significância pura.

  3. A inicialização é realizada sem a necessidade de uma função de probabilidade. Mas há conexões com idéias de probabilidade, por exemplo, probabilidade empírica .

  4. Métodos baseados em classificação geralmente não usam probabilidade.

  5. Muitas estatísticas robustas.

  6. Intervalos de confiança para a mediana (ou outros quantis) podem ser baseados em estatísticas da ordem. Nenhuma probabilidade está envolvida nos cálculos. Intervalo de confiança para a mediana , Melhor estimador para a variância da mediana empírica

  7. V Vapnik teve a ideia de aprendizagem transdutivo que parece estar relacionado com https://en.wikipedia.org/wiki/Epilogism como discutido em The Black Swan Taleb eo Black Swan .

  8. No livro Análise de Dados e Modelos Aproximados, Laurie Davis constrói uma teoria sistemática de modelos estatísticos como aproximações, os intervalos de confiança foram substituídos por intervalos de aproximação e não há famílias paramétricas de distribuições , não apenas e assim por diante. E sem probabilidades.N(μ,σ2)N(9,37,2.122)

No momento em que você tem uma função de probabilidade, há uma imensa maquinaria para construir. Os bayesianos não podem prescindir, e muitos outros usam a probabilidade na maioria das vezes. Mas é apontado em um comentário que mesmo os bayesianos tentam prescindir, consulte Approximate_Bayesian_computation . Existe até um novo texto sobre esse tópico.

Mas de onde eles vêm? Para obter uma função de probabilidade da maneira usual, precisamos de muitas suposições que podem ser difíceis de justificar.

É interessante perguntar se podemos construir funções de probabilidade, de alguma forma, a partir de alguns desses métodos sem probabilidade. Por exemplo, ponto 6. acima, podemos construir uma função de probabilidade para a mediana a partir de (uma família de) intervalos de confiança calculados a partir das estatísticas da ordem? Eu deveria fazer isso como uma pergunta separada ...

Sua última pergunta sobre o GAN, devo deixar para os outros.

kjetil b halvorsen
fonte
7
(+1) Mas veja Computação Bayesiana Aproximada . (Tenho a impressão de que "livre de probabilidade" é usado mais para procedimentos em que você esperaria trabalhar com uma função de probabilidade, mas não precisa; em vez de testes de randomização e coisas semelhantes para as quais você obviamente não usa " t.)
Scortchi - Reinstate Monica
9

Especificamente, [os recentes] métodos sem probabilidade são uma reformulação dos algoritmos ABC, em que ABC significa computação bayesiana aproximada . Isso pretende abranger métodos de inferência que não requerem o uso de uma função de probabilidade de forma fechada, mas ainda pretendem estudar um modelo estatístico específico. Eles estão livres da dificuldade computacional associada à probabilidade, mas não do modelo que produz essa probabilidade. Veja por exemplo

  1. Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F. (2009). "Métodos sem verossimilhança para escolha de modelo em campos aleatórios de Gibbs". Análise Bayesiana. 3: 427-442 .
  2. Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S. (2009). "Crítica de modelo baseada em inferência sem probabilidade, com aplicação à evolução da rede de proteínas". Anais da Academia Nacional de Ciências dos Estados Unidos da América. 106: 10576-10581 .
  3. Bazin, E., Dawson, KJ e Beaumont, MA (2010). Inferência sem probabilidade de estrutura populacional e adaptação local em um modelo hierárquico bayesiano. Genetics, 185 (2), 587-602 .
  4. Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Estimativa sem probabilidades da evidência do modelo". Análise Bayesiana. 6: 49–76 .
  5. Gutmann, M. e Corander, J. (2016) Otimização bayesiana para inferência sem probabilidade de modelos estatísticos baseados em simuladores Journal of Machine Learning Research .
Xi'an
fonte
2

Para aumentar a litania de respostas, as estatísticas assintóticas são de fato livres de probabilidades.

Uma "probabilidade" aqui refere-se ao modelo de probabilidade para os dados . Eu posso não me importar com isso. Mas posso encontrar um estimador simples, como a média, que é um resumo adequado dos dados e quero fazer inferência sobre a média da distribuição (supondo que ela exista, o que geralmente é uma suposição razoável).

Pelo teorema do limite central, a média tem uma distribuição normal aproximada em N grande quando a variância também existe. Posso criar testes consistentes (o poder passa para 1 como N vai para o infinito quando nulo é falso) com o tamanho correto. Embora eu tenha um modelo de probabilidade (falso) para a distribuição amostral da média em tamanhos finitos de amostras, posso obter inferência válida e estimativa imparcial para aumentar meu "resumo útil dos dados" (a média).

Note-se que os testes baseados no IC95% para a mediana (ou seja, opção 6 na resposta de @ kjetilbhalvorsen) também contam com o teorema do limite central para mostrar que são consistentes. Portanto, não é uma loucura considerar o teste T simples como um teste "não paramétrico" ou "não baseado em probabilidade".

AdamO
fonte
1

p(y|x)xyp(y|x)=N(y|μ(x),σ)p(y|x)

p(y|x)

Luca Thiede
fonte