No famoso experimento de chá de senhora com degustação de RA Fisher, a mulher é informada de quantos copos de leite primeiro / primeiro chá há (4 para cada um dos 8 copos). Isso respeita a suposição total marginal fixa do teste exato de Fisher.
Eu estava imaginando fazer esse teste com meu amigo, mas o pensamento me atingiu. Se a mulher puder realmente distinguir a diferença entre os copos primeiro de leite e primeiro chá, ela deve ser capaz de descobrir os totais marginais dos copos primeiro de leite / primeiro chá, bem como quais são quais.
Então, eis a questão: que teste poderia ter sido usado se RA Fisher não tivesse informado a dama do número total de xícaras com leite e chá?
Respostas:
Alguns argumentam que, mesmo que a segunda margem não seja fixa por design, ela carrega pouca informação sobre a capacidade de discriminação de uma dama (isto é, é aproximadamente auxiliar) e deve ser condicionada. O teste incondicional exato (proposto pela primeira vez por Barnard ) é mais complicado porque é necessário calcular o valor-p máximo sobre todos os valores possíveis de um parâmetro incômodo, a probabilidade comum de Bernoulli sob a hipótese nula. Mais recentemente, foi proposto maximizar o valor de p sobre um intervalo de confiança para o parâmetro incômodo: ver Berger (1996), "Testes mais poderosos a partir de valores de p de intervalo de confiança", The American Statistician , 50 , 4; testes exatos com o tamanho correto podem ser construídos usando essa ideia.
O Teste Exato de Fisher também surge como um teste de randomização, no sentido de Edgington: uma atribuição aleatória dos tratamentos experimentais permite que a distribuição da estatística do teste sobre permutações dessas atribuições seja usada para testar a hipótese nula. Nesta abordagem, as determinações da dama são consideradas fixas (e os totais marginais das xícaras de leite em primeiro lugar e de chá em primeiro lugar são naturalmente preservados por permutação).
fonte
Barnard::barnardw.test()
ser usado aqui? Que diferença na complexidade computacional pode ser esperada na prática?Exact
. Quanto à complexidade computacional, eu não sei - vai depender do algoritmo de maximização usado.Hoje, li os primeiros capítulos de "O projeto de experimentos", de RA Fisher, e um dos parágrafos me fez perceber a falha fundamental em minha pergunta.
Ou seja, mesmo que a senhora possa realmente dizer a diferença entre as primeiras xícaras de leite e de chá , nunca posso provar que ela tem essa capacidade "por qualquer quantidade finita de experimentação". Por esse motivo, como experimentadora, devo começar com a suposição de que ela não tem uma habilidade (hipótese nula) e tentar desaprovar isso. E o desenho original da experiência (teste exato de Fisher) é um procedimento suficiente, eficiente e justificável para fazer isso.
Aqui está o trecho de "The Design of Experiments", de RA Fisher:
fonte
O teste de Barnard é usado quando o parâmetro incômodo é desconhecido sob a hipótese nula.
No entanto, no teste de degustação de mulheres, você pode argumentar que o parâmetro incômodo pode ser definido em 0,5 sob a hipótese nula (a mulher desinformada tem 50% de probabilidade de adivinhar corretamente um copo).
Então, o número de suposições corretas, sob a hipótese nula, torna-se uma distribuição binomial: adivinhando 8 xícaras com 50% de probabilidade para cada xícara.
Em outras ocasiões, você pode não ter essa probabilidade trivial de 50% para a hipótese nula. E sem margens fixas, você pode não saber qual deve ser essa probabilidade. Nesse caso, você precisa do teste de Barnard.
Mesmo se você fizesse o teste de Barnard no teste de degustação de mulheres, ele se tornaria 50% de qualquer maneira (se o resultado for de suposições corretas), já que o parâmetro incômodo com o maior valor de p é 0,5 e resultaria no teste binomial trivial ( na verdade, é a combinação de dois testes binomiais, um para os quatro primeiros copos de leite e um para os quatro primeiros copos de leite).
Abaixo está como isso resultaria em um resultado mais complicado (se nem todas as estimativas estiverem corretas, por exemplo, 2 versus 4), a contagem do que é e do que não é extremo se torna um pouco mais difícil.
(Observe também que o teste de Barnard usa, no caso de um resultado de 4-2, um parâmetro incômodo p = 0,686 que você poderia argumentar que não está correto, o valor de p para 50% de probabilidade de responder 'primeiro ao chá' seria 0,08203125. Isso se torna ainda menor quando você considera uma região diferente, em vez da região baseada na estatística de Wald, embora definir a região não seja tão fácil )
fonte