Minha formação é principalmente em aprendizado de máquina e eu estava tentando aprender o que significava o teste de Hipótese Bayesiana. Eu estou bem com a interpretação bayesiana da probabilidade e estou familiarizada com ela no contexto de modelos gráficos probabilísticos. No entanto, o que está me confundindo é o que a palavra "Hipótese" significa no contexto da inferência estatística.
Acho que estou me confundindo principalmente com o vocabulário com o qual estou acostumado no aprendizado de máquina versus o que é normalmente usado em estatística e inferência.
No contexto da aprendizagem supervisionada , eu normalmente pensar na hipótese de que a função preditiva que mapeia exemplos para seus rótulos ou seja . No entanto, parece-me que o termo hipótese, nas leituras que estou fazendo, não tem o mesmo significado. Deixe-me colar um extrato das leituras que estou lendo:
Se você ler atentamente, também diz:
existe um modelo diferente para os dados observados ...
eles usaram a palavra modelo. Para mim, o modelo da palavra me faz pensar em um conjunto de funções onde selecionamos uma função preditiva específica. isto é, uma classe de hipótese de função. Por exemplo, poderia ser a classe hipótese de funções quadráticas (polinomial de grau 2). No entanto, parece-me que eles usam a palavra modelo e hipótese como sinônimo neste extrato (onde para mim são palavras completamente diferentes).
Em seguida, menciona que podemos colocar anteriores à hipótese (algo completamente razoável a ser feito em um cenário bayesiano):
também podemos caracterizar os dados com uma hipótese atual:
e atualize nossas crenças atuais, dados alguns dados (e regra de Baye):
No entanto, acho que estou mais acostumado a colocar uma estimativa bayesiana em um parâmetro específico (digamos, ) de uma classe de hipótese em vez de em toda a classe de hipótese. Basicamente, como parece que essas "hipóteses" não são as mesmas hipóteses do contexto de aprendizado de máquina com as quais estou acostumado, parece-me que essas hipóteses são mais semelhantes a um parâmetro θ específico do que a uma classe de hipóteses.
Nesse ponto, eu estava convencido de que "hipótese" significava o mesmo que na função preditiva (parametrizada por um parâmetro , por exemplo), mas acho que estava errado ...
Para piorar ainda mais minha confusão, mais tarde essas mesmas leituras foram adiante para especificar uma "hipótese" específica para cada exemplo de treinamento que eles observaram. Deixe-me colar um extrato do que quero dizer:
a razão pela qual isso me confunde é que, se eu interpretar a hipótese como um parâmetro, para mim não faz sentido especificar um parâmetro específico para cada valor de amostra que vemos. Nesse ponto, concluí que realmente não sabia o que eles queriam dizer com hipótese, por isso postei essa pergunta.
No entanto, não desisti completamente, pesquisei o que significa hipótese nas estatísticas freqüentistas e encontrei o seguinte vídeo da academia khan . Esse vídeo realmente faz muito sentido para mim (talvez você seja um frequentista! :) . No entanto, parece que eles obtêm um monte de dados (como alguns "conjuntos de amostras") e, com base nas propriedades do conjunto de amostras, decidem se aceitam ou rejeitam a hipótese nula sobre os dados. No entanto, no contexto bayesiano que estou lendo, parece-me que, para cada vetor de [ponto] de dados observado, eles "o rotulam" com uma hipótese com o "teste de razão de verossimilhança":
A maneira como eles atribuem hipóteses a cada amostra de dados parece até um ambiente de aprendizado supervisionado, quando anexamos um rótulo a cada conjunto de treinamento. No entanto, acho que não é isso que eles estão fazendo neste contexto. O que eles estão fazendo? O que significa atribuir uma hipótese a cada amostra de dados? Qual é o significado de uma hipótese? O que significa o modelo de palavra?
Basicamente, após essa longa explicação da minha confusão, alguém sabe o que significa o teste de hipóteses bayesianas nesse contexto?
Se você precisar de algum esclarecimento ou algo para melhorar minha pergunta ou para que a pergunta faça sentido, fico feliz em ajudar :)
Na minha busca por uma resposta, encontrei algumas coisas úteis relacionadas ao teste estatístico de hipóteses:
Este aborda uma boa introdução ao tópico, se você tem experiência em CS (como eu):
O que é uma boa introdução ao teste de hipóteses estatísticas para cientistas da computação?
Em algum momento, perguntei sobre "parâmetros padrão" (que eu deveria ter definido o que eu quis dizer. Eu pensei que era um termo padrão, mas não é, então aqui vou abordá-lo) e acho que o que realmente queria dizer é como fazer você especifica parâmetros para cada hipótese que você possui. Por exemplo, como você decide qual é sua hipótese nula e seus parâmetros. Há uma pergunta relacionada a isso:
fonte
Respostas:
Um modelo estatístico é dado por uma família de distribuições de probabilidade. Quando o modelo é paramétrico, essa família é indexada por um parâmetro desconhecido : F = { f ( ⋅ | θ ) ; θ ∈ Θ } Se alguém quiser testar uma hipótese em θ como H 0 :θ
Por exemplo, na configuração em queX∼N(θ,1) H0:θ=0 θ=0 N(0,1) θ θ∼N(0,10) ρ0=1/2
fonte
Excelente pergunta. Eu acho que sua confusão pode resultar de algumas das diferenças básicas entre as perspectivas "freqüentista" e "bayesiana". Tenho muita experiência com o primeiro e sou novo no mais tarde, portanto, tentar algumas observações simples também pode me ajudar. Editei sua pergunta para deixar algumas distinções claras - pelo menos como as entendo. Espero que você não se importe! Se houver algo errado, você poderá reeditar sua pergunta ou adicionar um comentário a esta resposta.
1) Correndo o risco de parecer um pouco elementar demais: modelo é qualquer afirmação que tente uma explicação da realidade como "Se eu tivesse panquecas no café da manhã, deve ser terça-feira". Como tal, um modelo é uma hipótese. Uma citação famosa de George Box: "Todos os modelos estão errados, alguns são úteis". Para um modelo ser útil, deve haver alguma maneira de testá-lo. Digite o conceito de hipóteses concorrentes e a resposta para uma de suas perguntas. Eu sugeriria que "... no contexto da inferência estatística", uma hipótese é qualquer modelo que possa ser útil e possa ser testado matematicamente. Portanto, o teste de hipóteses é um meio de tomar uma decisão sobre se um modelo é útil ou não. Em resumo, uma hipótese é um modelo em consideração. Podem ser diferentes valores de parâmetros da mesma função ou funções diferentes.
2) Seu vídeo Kahn é um exemplo do que os bayesianos chamam de abordagem "freqüentista" ao teste de hipóteses, para que possa confundi-lo ao tentar aplicá-lo às anotações de sua aula que são bayesianas. Eu tenho tentado chegar a uma distinção simples entre a aplicação das duas abordagens (o que pode ser perigoso). Eu acho que compreendo a distinção filosófica razoavelmente bem. Pelo que vi, o "Frequentist" assume um componente aleatório para os dados e testa a probabilidade dos dados observados receberem parâmetros não aleatórios. O "bayesiano" assume que os dados são fixos e determina o valor mais provável dos parâmetros aleatórios. Essa diferença leva a diferentes métodos de teste.
No teste de hipóteses "Frequentista", um modelo que pode ser útil é aquele que explica algum efeito, sendo comparado com a "hipótese nula" - o modelo sem efeito. É feita uma tentativa de configurar um modelo útil mutuamente exclusivo para o modelo sem efeito. O teste tem então a probabilidade de observar os dados sob a suposição de que não há efeito. Se essa probabilidade for baixa, a hipótese nula é rejeitada e a alternativa é tudo o que resta. (Observe que um purista nunca "aceitaria" a hipótese nula, apenas "deixaria de rejeitar" uma. Pode parecer anjos dançando na cabeça de um alfinete, mas a distinção é filosófica fundamental). As estatísticas introdutórias geralmente começam com o que pode seja o exemplo mais simples: "Dois grupos são diferentes".tão grande ou maior conforme medido por um experimento aleatório, uma vez que eles não são diferentes. Geralmente é um teste t em que a hipótese nula é de que a diferença das médias é zero. Portanto, o parâmetro é a média em um valor fixo de zero.
O bayesiano diz: "Espere um pouco, fizemos essas medições e elas são diferentes, então qual é a probabilidade disso?" Eles calculam a probabilidade de cada valor do parâmetro aleatório (agora) e escolhem o que for mais alto como o mais provável. Portanto, de certa forma, todo valor possível do parâmetro é um modelo separado. Mas agora eles precisam de uma maneira de tomar uma decisão sobre se o modelo com a maior probabilidade é diferente o suficiente para importar. É por isso que suas notas de aula introduziram a função de custo. Para tomar uma boa decisão, é necessária alguma suposição das consequências de tomar a decisão errada.
3) "O que significa atribuir uma hipótese a cada amostra de dados?" Eu não acho que eles são. Tenha cuidado com o que se entende por "ponto de amostra". Eu acredito que eles estão se referindo a um vetor de amostra específico e querem saber a probabilidade de cada hipótese para todos os vetores de amostra no espaço de amostra. As equações (14) e (15) mostram como comparar duas hipóteses para um vetor amostral específico. Portanto, eles estão simplificando um argumento geral de comparação de múltiplas hipóteses, mostrando como comparar apenas duas.
fonte
Digamos que você tenha dados de um conjunto de caixas. Os dados consistem em Comprimento (L), Largura (W), Altura (H) e Volume (V).
Se não sabemos muito sobre caixas / geometria, podemos tentar o modelo:
Este modelo possui três parâmetros (a, b, c) que podem ser variados, além de um termo de erro / custo (e) descrevendo quão bem a hipótese se ajusta aos dados. Cada combinação de valores de parâmetros seria considerada uma hipótese diferente. O valor do parâmetro "padrão" escolhido é geralmente zero, o que no exemplo acima corresponderia a "nenhuma relação" entre V e L, W, H.
O que as pessoas fazem é testar essa hipótese "padrão", verificando se e está além de algum valor de corte, geralmente calculando um valor-p assumindo uma distribuição normal de erro em torno do ajuste do modelo. Se essa hipótese for rejeitada, eles encontrarão a combinação de parâmetros a, b, c que maximiza a probabilidade e apresentam que esta é a hipótese mais provável. Se eles são bayesianos, multiplicam a probabilidade pelo anterior para cada conjunto de valores de parâmetros e escolhem a solução que maximiza a probabilidade posterior.
Obviamente, essa estratégia não é ótima, pois o modelo assume aditividade e perderá a hipótese correta:
Edit: @Pinocchio
Talvez alguém tenha discordado da afirmação de que o teste de hipóteses não é ideal quando não há razão racional para escolher uma / poucas funções (ou como você diz: "classes de hipóteses") dentre as infinitas possíveis. É claro que isso é trivialmente verdadeiro, e "ideal" pode ser usado no sentido limitado de "melhor ajuste, dada a função de custo e as opções fornecidas". Esse comentário chegou à minha resposta porque eu não gostava de como a questão da especificação de modelo era encoberta nas anotações de sua classe. É o principal problema enfrentado pela maioria dos trabalhadores científicos, para o qual não existe algoritmo.
Além disso, eu não conseguia entender valores-p, testes de hipóteses etc. até entender o histórico, então talvez isso também o ajude. Existem várias fontes de confusão em torno do teste de hipóteses freqüentes (não estou tão familiarizado com a história da variante bayesiana).
Existe o que foi originalmente chamado de "teste de hipóteses" no sentido de Neyman-Pearson, "teste de significância", desenvolvido por Ronald Fisher, e também um "híbrido" mal definido e nunca justificado adequadamente dessas duas estratégias amplamente utilizadas em todas as ciências (que pode ser referido casualmente usando o termo acima ou "teste de significância de hipótese nula"). Embora eu não recomende que uma página da Wikipedia seja autorizada, muitas fontes que discutem esses problemas podem ser encontradas aqui . Alguns pontos principais:
O uso de uma hipótese "padrão" não faz parte do procedimento original de teste de hipóteses, mas o usuário deve usar conhecimento prévio para determinar os modelos em consideração. Nunca vi recomendação explícita dos proponentes desse modelo em relação ao que fazer se não tivermos um motivo específico para escolher um determinado conjunto de hipóteses para comparar. Costuma-se dizer que essa abordagem é adequada para controle de qualidade, quando existem tolerâncias conhecidas para comparar algumas medições.
Não existe hipótese alternativa no paradigma de "teste de significância" de Fisher, apenas uma hipótese nula, que pode ser rejeitada se considerada improvável diante dos dados. Na minha leitura, o próprio Fisher foi inequívoco quanto ao uso de hipóteses nulas padrão. Eu nunca consegui encontrá-lo comentando explicitamente sobre o assunto, mas ele certamente não recomendou que essa fosse a única hipótese nula.
O uso da hipótese nula padrão às vezes é interpretado como um "abuso" do teste de hipóteses, mas é central no método híbrido popular mencionado. O argumento é que essa prática é frequentemente "uma preliminar inútil":
A hipótese nula testando controvérsia em psicologia. David H. Krantz. Jornal da Associação Estatística Americana; Dez 1999; 94, 448; 1372-1381
O vídeo da academia Khan é um exemplo desse método híbrido e é culpado de cometer o erro observado nessa citação. A partir das informações disponíveis nesse vídeo, podemos concluir apenas que os ratos injetados diferem dos não injetados, enquanto o vídeo afirma que podemos concluir "a droga definitivamente tem algum efeito". Um pouco de reflexão nos levaria a considerar que talvez os ratos testados fossem mais velhos que os não injetados, etc. Precisamos descartar explicações alternativas plausíveis antes de reivindicar evidências para nossa teoria. Quanto menos específica a previsão da teoria , mais difícil é conseguir isso.
Edição 2:
Talvez o exemplo das anotações de um diagnóstico médico ajude. Digamos que um paciente possa ser "normal" ou em "crise hipertensiva".
Temos informações anteriores de que apenas 1% das pessoas estão em crise hipertensiva. Pessoas em crise hipertensiva apresentam pressão arterial sistólica que segue uma distribuição normal com média = 180 e dp = 10. Enquanto isso, pessoas normais têm pressão arterial de uma distribuição normal com média = 120, dp = 10. O custo de julgar uma pessoa normal quando ela é zero, o custo da falta de um diagnóstico é 1 e o custo devido aos efeitos colaterais causados pelo tratamento é de 0,2, independentemente de eles estarem em crise ou não. Em seguida, o código R a seguir calcula o limite (eta) e a razão de probabilidade. Se a razão de verossimilhança for maior que o limite que decidimos tratar, se menor que não:
No cenário acima, o limite eta = 15,84. Se fizermos três medições da pressão arterial e obtivermos 139,9237, 125,2278, 190,3765, a taxa de probabilidade será de 27,6 a favor de H1: paciente em crise hipertensiva. Como 27,6 é maior que o limiar que escolheríamos tratar. O gráfico mostra a hipótese normal em verde e hipertensa em vermelho. Linhas pretas verticais indicam os valores das observações.
fonte