O que o Teste de Hipótese Bayesiano significa no quadro da inferência e da teoria da decisão?

15

Minha formação é principalmente em aprendizado de máquina e eu estava tentando aprender o que significava o teste de Hipótese Bayesiana. Eu estou bem com a interpretação bayesiana da probabilidade e estou familiarizada com ela no contexto de modelos gráficos probabilísticos. No entanto, o que está me confundindo é o que a palavra "Hipótese" significa no contexto da inferência estatística.

Acho que estou me confundindo principalmente com o vocabulário com o qual estou acostumado no aprendizado de máquina versus o que é normalmente usado em estatística e inferência.

No contexto da aprendizagem supervisionada , eu normalmente pensar na hipótese de que a função preditiva que mapeia exemplos para seus rótulos ou seja h:XY . No entanto, parece-me que o termo hipótese, nas leituras que estou fazendo, não tem o mesmo significado. Deixe-me colar um extrato das leituras que estou lendo:

insira a descrição da imagem aqui

Se você ler atentamente, também diz:

existe um modelo diferente para os dados observados ...

eles usaram a palavra modelo. Para mim, o modelo da palavra me faz pensar em um conjunto de funções onde selecionamos uma função preditiva específica. isto é, uma classe de hipótese de função. Por exemplo, poderia ser a classe hipótese de funções quadráticas (polinomial de grau 2). No entanto, parece-me que eles usam a palavra modelo e hipótese como sinônimo neste extrato (onde para mim são palavras completamente diferentes).Hd2

Em seguida, menciona que podemos colocar anteriores à hipótese (algo completamente razoável a ser feito em um cenário bayesiano):

pH(Hm),     m={0,1,...,M1}

também podemos caracterizar os dados com uma hipótese atual:

py|H(|Hm),     m={0,1,...,M1}

e atualize nossas crenças atuais, dados alguns dados (e regra de Baye):

pH|y(Hm|y),     m={0,1,...,M1}

No entanto, acho que estou mais acostumado a colocar uma estimativa bayesiana em um parâmetro específico (digamos, ) de uma classe de hipótese em vez de em toda a classe de hipótese. Basicamente, como parece que essas "hipóteses" não são as mesmas hipóteses do contexto de aprendizado de máquina com as quais estou acostumado, parece-me que essas hipóteses são mais semelhantes a um parâmetro θ específico do que a uma classe de hipóteses.θθ

Nesse ponto, eu estava convencido de que "hipótese" significava o mesmo que na função preditiva (parametrizada por um parâmetro , por exemplo), mas acho que estava errado ...θ

Para piorar ainda mais minha confusão, mais tarde essas mesmas leituras foram adiante para especificar uma "hipótese" específica para cada exemplo de treinamento que eles observaram. Deixe-me colar um extrato do que quero dizer:

insira a descrição da imagem aqui

a razão pela qual isso me confunde é que, se eu interpretar a hipótese como um parâmetro, para mim não faz sentido especificar um parâmetro específico para cada valor de amostra que vemos. Nesse ponto, concluí que realmente não sabia o que eles queriam dizer com hipótese, por isso postei essa pergunta.

No entanto, não desisti completamente, pesquisei o que significa hipótese nas estatísticas freqüentistas e encontrei o seguinte vídeo da academia khan . Esse vídeo realmente faz muito sentido para mim (talvez você seja um frequentista! :) . No entanto, parece que eles obtêm um monte de dados (como alguns "conjuntos de amostras") e, com base nas propriedades do conjunto de amostras, decidem se aceitam ou rejeitam a hipótese nula sobre os dados. No entanto, no contexto bayesiano que estou lendo, parece-me que, para cada vetor de [ponto] de dados observado, eles "o rotulam" com uma hipótese com o "teste de razão de verossimilhança":

insira a descrição da imagem aqui

A maneira como eles atribuem hipóteses a cada amostra de dados parece até um ambiente de aprendizado supervisionado, quando anexamos um rótulo a cada conjunto de treinamento. No entanto, acho que não é isso que eles estão fazendo neste contexto. O que eles estão fazendo? O que significa atribuir uma hipótese a cada amostra de dados? Qual é o significado de uma hipótese? O que significa o modelo de palavra?

Basicamente, após essa longa explicação da minha confusão, alguém sabe o que significa o teste de hipóteses bayesianas nesse contexto?


Se você precisar de algum esclarecimento ou algo para melhorar minha pergunta ou para que a pergunta faça sentido, fico feliz em ajudar :)


Na minha busca por uma resposta, encontrei algumas coisas úteis relacionadas ao teste estatístico de hipóteses:

Este aborda uma boa introdução ao tópico, se você tem experiência em CS (como eu):

O que é uma boa introdução ao teste de hipóteses estatísticas para cientistas da computação?

Em algum momento, perguntei sobre "parâmetros padrão" (que eu deveria ter definido o que eu quis dizer. Eu pensei que era um termo padrão, mas não é, então aqui vou abordá-lo) e acho que o que realmente queria dizer é como fazer você especifica parâmetros para cada hipótese que você possui. Por exemplo, como você decide qual é sua hipótese nula e seus parâmetros. Há uma pergunta relacionada a isso:

Como especificar a hipótese nula no teste de hipótese

Pinóquio
fonte
@ Xi'an Eu li o seguinte artigo da wikipedia: en.wikipedia.org/wiki/Statistical_model é isso que eles querem dizer com modelo e hipótese? thnx for ur pacience btw :)
Pinóquio
3
Hesito em entrar nessa discussão porque acho que seu problema é realmente entender o que significa o teste de hipóteses em princípio, e não especificamente o que é o teste de hipóteses na estrutura bayesiana. Para ajudar, sugiro dar uma olhada no livro "Modos de inferência estatística paramétrica", de Geisser. books.google.ca/…
rocinante
@rocinante Acho que concordo com você. Estou definitivamente confuso sobre o teste de hipóteses em geral (e a estrutura bayesiana não ajuda em nada). Definitivamente vou dar uma olhada nisso. Obrigado pela sua paciência e compreensão, é muito apreciado.
Pinóquio
Não é uma coisa fácil de entender, porque não é fácil articular de maneira concisa. Em vez de pensar sobre isso em termos abstratos (como mapas), talvez ajude se você pensar sobre isso com um exemplo mais simples. 1/2
rocinante
11
2/2 Suponha que você tenha uma moeda e deseja ver se ela é justa, e a jogue 50 vezes. Agora você tem um conjunto de dados sobre o qual deseja fazer alguma inferência (ou seja, a moeda é tendenciosa ou não). Logicamente, se a moeda é justa, cerca de metade dos lançamentos devem ser cara. (Observe que isso não é uma derivação de estatísticas, mas seu próprio raciocínio lógico). Essa é a sua hipótese. Você pode testar esta hipótese de duas maneiras: a maneira bayesiana e a maneira freqüentista.
rocinante

Respostas:

10

Um modelo estatístico é dado por uma família de distribuições de probabilidade. Quando o modelo é paramétrico, essa família é indexada por um parâmetro desconhecido : F = { f ( | θ ) ; θ Θ } Se alguém quiser testar uma hipótese em θ como H 0 :θ

F={f(|θ); θΘ}
θ , pode-se considerar que dois modelos estão em oposição: F versus F 0 = { f ( | θ ) ; q q 0 } Deminha perspectiva Bayesiana, eu estou desenhando inferência sobre o índice do modelo por trás dos dados, M . Portanto, coloquei um prior neste índice, ρ 0 e ρ a , bem como nos parâmetros de ambos os modelos, π 0 ( θ ) sobre Θ 0 e πH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0 acima de Θ . E I depois deduzir a distribuição posterior deste índice: π ( m = 0 | x ) = ρ 0 q 0 f ( x | θ ) π 0 ( θ ) d θπa(θ)Θ Odocumento é ligada aoentra em muito mais detalhes nessa perspectiva e deve ser a sua opção de escolha no teste estatístico de hipóteses, a menos que você possa se dar ao luxo de ler um livro bayesiano inteiro. Ou mesmo um livro de aprendizado de máquina
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
como o de Kevin Murphy .

Por exemplo, na configuração em que XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,10)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}
Xi'an
fonte
pH(H0)F0θF0py|H(y|H0)H0H0
HmθFmHm=(θ,Fm)θFm
O par que você mencionou é o (índice do modelo, valor do parâmetro), ambos dotados de probabilidades anteriores. entãoϱ0 0 é a probabilidade ou crença anterior de que o modelo H0 0 (ou F0 0) é o correto (com a opção padrão ϱ0 0=0 0) e π0 0(θ) é a distribuição anterior no parâmetro θ do modelo em H0 0.
Xian
portanto, se a hipótese a é uma tupla de um modelo estatístico proposto e um parâmetro padrão, como o parâmetro padrão é escolhido?
Pinóquio
Não entendo o que você quer dizer com "parâmetro padrão": uma hipótese é um modelo com todos os parâmetros fixados em valores conhecidos (como θ=0 0no exemplo acima) ou com alguns parâmetros desconhecidos. No caso posterior, uma abordagem bayesiana implica colocar distribuições anteriores nessas incógnitas.
Xian
4

Excelente pergunta. Eu acho que sua confusão pode resultar de algumas das diferenças básicas entre as perspectivas "freqüentista" e "bayesiana". Tenho muita experiência com o primeiro e sou novo no mais tarde, portanto, tentar algumas observações simples também pode me ajudar. Editei sua pergunta para deixar algumas distinções claras - pelo menos como as entendo. Espero que você não se importe! Se houver algo errado, você poderá reeditar sua pergunta ou adicionar um comentário a esta resposta.

1) Correndo o risco de parecer um pouco elementar demais: modelo é qualquer afirmação que tente uma explicação da realidade como "Se eu tivesse panquecas no café da manhã, deve ser terça-feira". Como tal, um modelo é uma hipótese. Uma citação famosa de George Box: "Todos os modelos estão errados, alguns são úteis". Para um modelo ser útil, deve haver alguma maneira de testá-lo. Digite o conceito de hipóteses concorrentes e a resposta para uma de suas perguntas. Eu sugeriria que "... no contexto da inferência estatística", uma hipótese é qualquer modelo que possa ser útil e possa ser testado matematicamente. Portanto, o teste de hipóteses é um meio de tomar uma decisão sobre se um modelo é útil ou não. Em resumo, uma hipótese é um modelo em consideração. Podem ser diferentes valores de parâmetros da mesma função ou funções diferentes.

2) Seu vídeo Kahn é um exemplo do que os bayesianos chamam de abordagem "freqüentista" ao teste de hipóteses, para que possa confundi-lo ao tentar aplicá-lo às anotações de sua aula que são bayesianas. Eu tenho tentado chegar a uma distinção simples entre a aplicação das duas abordagens (o que pode ser perigoso). Eu acho que compreendo a distinção filosófica razoavelmente bem. Pelo que vi, o "Frequentist" assume um componente aleatório para os dados e testa a probabilidade dos dados observados receberem parâmetros não aleatórios. O "bayesiano" assume que os dados são fixos e determina o valor mais provável dos parâmetros aleatórios. Essa diferença leva a diferentes métodos de teste.

No teste de hipóteses "Frequentista", um modelo que pode ser útil é aquele que explica algum efeito, sendo comparado com a "hipótese nula" - o modelo sem efeito. É feita uma tentativa de configurar um modelo útil mutuamente exclusivo para o modelo sem efeito. O teste tem então a probabilidade de observar os dados sob a suposição de que não há efeito. Se essa probabilidade for baixa, a hipótese nula é rejeitada e a alternativa é tudo o que resta. (Observe que um purista nunca "aceitaria" a hipótese nula, apenas "deixaria de rejeitar" uma. Pode parecer anjos dançando na cabeça de um alfinete, mas a distinção é filosófica fundamental). As estatísticas introdutórias geralmente começam com o que pode seja o exemplo mais simples: "Dois grupos são diferentes".tão grande ou maior conforme medido por um experimento aleatório, uma vez que eles não são diferentes. Geralmente é um teste t em que a hipótese nula é de que a diferença das médias é zero. Portanto, o parâmetro é a média em um valor fixo de zero.

O bayesiano diz: "Espere um pouco, fizemos essas medições e elas são diferentes, então qual é a probabilidade disso?" Eles calculam a probabilidade de cada valor do parâmetro aleatório (agora) e escolhem o que for mais alto como o mais provável. Portanto, de certa forma, todo valor possível do parâmetro é um modelo separado. Mas agora eles precisam de uma maneira de tomar uma decisão sobre se o modelo com a maior probabilidade é diferente o suficiente para importar. É por isso que suas notas de aula introduziram a função de custo. Para tomar uma boa decisão, é necessária alguma suposição das consequências de tomar a decisão errada.

3) "O que significa atribuir uma hipótese a cada amostra de dados?" Eu não acho que eles são. Tenha cuidado com o que se entende por "ponto de amostra". Eu acredito que eles estão se referindo a um vetor de amostra específico e querem saber a probabilidade de cada hipótese para todos os vetores de amostra no espaço de amostra. As equações (14) e (15) mostram como comparar duas hipóteses para um vetor amostral específico. Portanto, eles estão simplificando um argumento geral de comparação de múltiplas hipóteses, mostrando como comparar apenas duas.

MT
fonte
0

Digamos que você tenha dados de um conjunto de caixas. Os dados consistem em Comprimento (L), Largura (W), Altura (H) e Volume (V).

Se não sabemos muito sobre caixas / geometria, podemos tentar o modelo:

V = a*L + b*W + c*H + e

Este modelo possui três parâmetros (a, b, c) que podem ser variados, além de um termo de erro / custo (e) descrevendo quão bem a hipótese se ajusta aos dados. Cada combinação de valores de parâmetros seria considerada uma hipótese diferente. O valor do parâmetro "padrão" escolhido é geralmente zero, o que no exemplo acima corresponderia a "nenhuma relação" entre V e L, W, H.

O que as pessoas fazem é testar essa hipótese "padrão", verificando se e está além de algum valor de corte, geralmente calculando um valor-p assumindo uma distribuição normal de erro em torno do ajuste do modelo. Se essa hipótese for rejeitada, eles encontrarão a combinação de parâmetros a, b, c que maximiza a probabilidade e apresentam que esta é a hipótese mais provável. Se eles são bayesianos, multiplicam a probabilidade pelo anterior para cada conjunto de valores de parâmetros e escolhem a solução que maximiza a probabilidade posterior.

Obviamente, essa estratégia não é ótima, pois o modelo assume aditividade e perderá a hipótese correta:

V = L*W*H + e

Edit: @Pinocchio

Talvez alguém tenha discordado da afirmação de que o teste de hipóteses não é ideal quando não há razão racional para escolher uma / poucas funções (ou como você diz: "classes de hipóteses") dentre as infinitas possíveis. É claro que isso é trivialmente verdadeiro, e "ideal" pode ser usado no sentido limitado de "melhor ajuste, dada a função de custo e as opções fornecidas". Esse comentário chegou à minha resposta porque eu não gostava de como a questão da especificação de modelo era encoberta nas anotações de sua classe. É o principal problema enfrentado pela maioria dos trabalhadores científicos, para o qual não existe algoritmo.

Além disso, eu não conseguia entender valores-p, testes de hipóteses etc. até entender o histórico, então talvez isso também o ajude. Existem várias fontes de confusão em torno do teste de hipóteses freqüentes (não estou tão familiarizado com a história da variante bayesiana).

Existe o que foi originalmente chamado de "teste de hipóteses" no sentido de Neyman-Pearson, "teste de significância", desenvolvido por Ronald Fisher, e também um "híbrido" mal definido e nunca justificado adequadamente dessas duas estratégias amplamente utilizadas em todas as ciências (que pode ser referido casualmente usando o termo acima ou "teste de significância de hipótese nula"). Embora eu não recomende que uma página da Wikipedia seja autorizada, muitas fontes que discutem esses problemas podem ser encontradas aqui . Alguns pontos principais:

  1. O uso de uma hipótese "padrão" não faz parte do procedimento original de teste de hipóteses, mas o usuário deve usar conhecimento prévio para determinar os modelos em consideração. Nunca vi recomendação explícita dos proponentes desse modelo em relação ao que fazer se não tivermos um motivo específico para escolher um determinado conjunto de hipóteses para comparar. Costuma-se dizer que essa abordagem é adequada para controle de qualidade, quando existem tolerâncias conhecidas para comparar algumas medições.

  2. Não existe hipótese alternativa no paradigma de "teste de significância" de Fisher, apenas uma hipótese nula, que pode ser rejeitada se considerada improvável diante dos dados. Na minha leitura, o próprio Fisher foi inequívoco quanto ao uso de hipóteses nulas padrão. Eu nunca consegui encontrá-lo comentando explicitamente sobre o assunto, mas ele certamente não recomendou que essa fosse a única hipótese nula.

  3. O uso da hipótese nula padrão às vezes é interpretado como um "abuso" do teste de hipóteses, mas é central no método híbrido popular mencionado. O argumento é que essa prática é frequentemente "uma preliminar inútil":

    "O pesquisador formula uma previsão teórica, geralmente a direção de um efeito ... Quando os dados mostram o resultado direcional previsto, isso parece confirmar a hipótese. O pesquisador testa uma hipótese nula de 'pessoa de palha' de que o efeito é realmente 0. Se este último não puder ser rejeitado no nível 0,05 (ou alguma variante), a confirmação aparente da teoria não poderá ser reivindicada ... Um erro comum nesse tipo de teste é confundir o nível de significância realmente alcançado (por rejeitando o nulo do palhaço) com o nível de confirmação atingido para a teoria original ... a força da confirmação realmente depende da [nitidez das previsões numéricas de um pesquisador], não do nível de significância alcançado para um nulo do palhaço ".

    A hipótese nula testando controvérsia em psicologia. David H. Krantz. Jornal da Associação Estatística Americana; Dez 1999; 94, 448; 1372-1381

O vídeo da academia Khan é um exemplo desse método híbrido e é culpado de cometer o erro observado nessa citação. A partir das informações disponíveis nesse vídeo, podemos concluir apenas que os ratos injetados diferem dos não injetados, enquanto o vídeo afirma que podemos concluir "a droga definitivamente tem algum efeito". Um pouco de reflexão nos levaria a considerar que talvez os ratos testados fossem mais velhos que os não injetados, etc. Precisamos descartar explicações alternativas plausíveis antes de reivindicar evidências para nossa teoria. Quanto menos específica a previsão da teoria , mais difícil é conseguir isso.

Edição 2:

Talvez o exemplo das anotações de um diagnóstico médico ajude. Digamos que um paciente possa ser "normal" ou em "crise hipertensiva".

Temos informações anteriores de que apenas 1% das pessoas estão em crise hipertensiva. Pessoas em crise hipertensiva apresentam pressão arterial sistólica que segue uma distribuição normal com média = 180 e dp = 10. Enquanto isso, pessoas normais têm pressão arterial de uma distribuição normal com média = 120, dp = 10. O custo de julgar uma pessoa normal quando ela é zero, o custo da falta de um diagnóstico é 1 e o custo devido aos efeitos colaterais causados ​​pelo tratamento é de 0,2, independentemente de eles estarem em crise ou não. Em seguida, o código R a seguir calcula o limite (eta) e a razão de probabilidade. Se a razão de verossimilhança for maior que o limite que decidimos tratar, se menor que não:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

No cenário acima, o limite eta = 15,84. Se fizermos três medições da pressão arterial e obtivermos 139,9237, 125,2278, 190,3765, a taxa de probabilidade será de 27,6 a favor de H1: paciente em crise hipertensiva. Como 27,6 é maior que o limiar que escolheríamos tratar. O gráfico mostra a hipótese normal em verde e hipertensa em vermelho. Linhas pretas verticais indicam os valores das observações.

enter image description here

Lívido
fonte
a pessoa que votou negativamente nisso explica? O que há de errado com esta resposta? : S
Pinocchio
@Pinocchio Tentei esclarecer as coisas com um pouco de história na resposta: "teste de hipóteses" é um assunto difícil de discutir claramente devido a isso. Acho que respondi às perguntas sobre como os termos modelo / hipótese são usados, mas não entendo este: 'O que significa atribuir uma hipótese a cada amostra de dados?'
Lívio
Não consigo entender por que essa resposta foi reduzida e por que não foi mais votada. É realmente excelente. Poderia usar um pouco mais de definições teóricas, mas é claramente orientado para um público mais amplo do que estatísticos. O primeiro exemplo de uso de um GLM foi particularmente esclarecedor e totalmente alinhado com minhas (inúmeras) leituras acadêmicas. A conclusão é que a principal diferença entre o teste de hipóteses freqüentista e bayesiano é a contabilização do anterior, a fim de calcular o PAM (em vez de apenas o MLE).
gaborous 14/09/19
Devo acrescentar que uma representação gráfica do primeiro exemplo com o GLM seria incrível e muito esclarecedora, talvez usando um tipo de gráfico de alavancagem ?
gaborous