Então, acho que tenho uma compreensão decente dos conceitos básicos de probabilidade freqüente e análise estatística (e quão mal pode ser usado). Em um mundo freqüentista, faz sentido fazer uma pergunta como "essa distribuição é diferente daquela distribuição", porque as distribuições são assumidas como reais, objetivas e imutáveis (para uma determinada situação, pelo menos), e assim podemos descobrir qual a probabilidade de uma amostra ser coletada de uma distribuição com o formato de outra amostra.
Na visão bayesiana do mundo, nos preocupamos apenas com o que esperamos ver, dadas as nossas experiências passadas (ainda sou um pouco vago nessa parte, mas entendo o conceito de atualização bayesiana). Se é assim, como um bayesiano pode dizer "esse conjunto de dados é diferente daquele conjunto de dados"?
Para os fins desta pergunta, não me importo com significância estatística, ou similar, apenas como quantificar a diferença. Estou igualmente interessado em distribuições paramétricas e não paramétricas.
fonte
Respostas:
Pense na sua declaração como freqüentista e torne-a mais específica primeiro. Um freqüentista não poderia dizer que "o conjunto de dados A é diferente do conjunto de dados B", sem maiores esclarecimentos.
Primeiro, você teria que declarar o que você quer dizer com "diferente". Talvez você queira dizer "ter valores médios diferentes". Então, novamente, você pode querer dizer "ter diferentes variações". Ou talvez algo mais?
Em seguida, você deve declarar que tipo de teste você usaria, o que depende do que você acredita serem suposições válidas sobre os dados. Você supõe que os conjuntos de dados sejam ambos normalmente distribuídos sobre alguns meios? Ou você acredita que ambos são distribuídos em Beta? Ou alguma outra coisa?
Agora você pode ver que a segunda decisão é muito parecida com as anteriores nas estatísticas bayesianas? Não é apenas "minha experiência passada", mas sim o que acredito e o que acredito que meus colegas vão acreditar, são suposições razoáveis sobre meus dados. (E os bayesianos podem usar priors uniformes, o que leva as coisas a cálculos freqüentistas.)
EDIT: Em resposta ao seu comentário: o próximo passo está contido na primeira decisão que mencionei. Se você quiser decidir se as médias de dois grupos são diferentes, observe a distribuição da diferença das médias dos dois grupos para ver se essa distribuição contém ou não zero, em algum nível de confiança. Exatamente o quão perto de zero você conta como zero e exatamente qual parte da distribuição (posterior) usada é determinada por você e pelo nível de confiança que você deseja.
Uma discussão dessas idéias pode ser encontrada em um artigo de Kruschke , que também escreveu um livro muito legível, Doing Bayesian Data Analysis , que cobre um exemplo nas páginas 307-309, "Are Different Groups Igual?". (Segunda edição: p. 468-472.) Ele também tem um blog sobre o assunto , com algumas perguntas e respostas.
EDIÇÃO ADICIONAL: Sua descrição do processo bayesiano também não está correta. Os bayesianos se preocupam apenas com o que os dados nos dizem, à luz do que sabíamos independentemente dos dados. (Como salienta Kruschke, o prévio não ocorre necessariamente antes dos dados. Isso é o que a frase implica, mas é realmente apenas nosso conhecimento, excluindo alguns dos dados.) O que sabíamos independentemente de um determinado conjunto de dados pode ser vago ou específico e pode basear-se em consenso, um modelo do processo de geração de dados subjacente, ou pode ser apenas o resultado de outro experimento (não necessariamente anterior).
fonte
este artigo pode ser do seu interesse: http://arxiv.org/pdf/0906.4032v1.pdf
Ele fornece um bom resumo de algumas abordagens freqüentistas e bayesianas para o problema de duas amostras e discute os casos paramétricos e não paramétricos.
Pode adicionar algo às outras respostas para dar um exemplo simples. Digamos que você tenha dois conjuntos de dados e y em que cada x i e cada y j sejam 0 ou 1 . Você assume um modelo iid Bernoulli nos dois casos, então cada x i ∼ B e r n ( px y xi yj 0 1 e cada y i ∼ B e r n ( q ) . Sua hipótese de testar cenário emamboso frequencista e configurações Bayesian pode ser:xi∼Bern(p) yi∼Bern(q)
As probabilidades para os dados em cada caso são:
Sob : G 0 ( p ) = f ( x , y ; p ) = Π i p i ( 1 - P ) 1 - i Π jH0 L0(p)=f(x,y;p)=∏ipi(1−p)1−i∏jpj(1−p)1−j
onde denotam as estimativas de verossimilhança máxima para p e q sob a hipótese relevante (então p m a x no numerador pode não ser o mesmo que p m a x no denominador). W segue assintoticamente um χ 2pmax,qmax p q pmax pmax W distribuição 1 (consulte, por exemplo, Pawitan, 2001), portanto você deve especificar um nível de significância e rejeitar / deixar de rejeitarH0conforme apropriado.χ21 H0
Tradicionalmente, na abordagem bayesiana, a estatística do teste seria o fator Bayes. Primeiro você assumiria alguns estudos anteriores relevantes sob H 0 e p , qp∼π0 H0 sob H 1 . O fator Bayes é a razão de verossimilhanças marginais, dada por:p,q∼π1 H1
Espero que ajude junto com as outras respostas já postadas.
fonte
Dados dados, com que força acreditamos que 2 grupos não provêm da mesma população (H_1: eles não provêm da mesma população vs H_0: provêm da mesma população). Isso pode ser feito com um teste t bayesiano.
Complexidade é usada para descobrir quanto o prior está se sobrepondo a uma hipótese. O ajuste é usado para descobrir o quanto o posterior está sobreposto a uma hipótese. Combinadas, você pode comparar as hipóteses e expressar sua crença posterior se elas são ou não da mesma população.
fonte