Explicando testes bicaudais

Esta é uma ótima pergunta e estou ansioso pela versão de todos para explicar o valor-p e o teste bicaudal vs bicaudal. Eu tenho ensinado estatísticas a colegas cirurgiões ortopédicos e, portanto, tentei mantê-lo o mais básico possível, pois a maioria deles não faz matemática avançada há 10 a 30 anos.

Minha maneira de explicar o cálculo dos valores-p e as caudas

Começo com uma explicação de que, se acreditarmos que temos uma moeda justa, sabemos que ela deve terminar em 50% dos flips em média ( $=H_0$ ). Agora, se você se pergunta qual é a probabilidade de obter apenas 2 caudas de 10 lançamentos com esta moeda justa, pode calcular essa probabilidade como eu fiz no gráfico de barras. No gráfico, você pode ver que a probabilidade de obter 8 de 10 lançamentos com uma moeda justa é de cerca de $\approx 4.4\%$ .

Como questionaríamos a justiça da moeda se obtivéssemos 9 ou 10 caudas, temos que incluir essas possibilidades, a cauda do teste. Ao adicionar os valores, obtemos que a probabilidade agora é um pouco mais de $\approx 5.5\%$ de obter 2 caudas ou menos.

$5.4...\%+5.4...\% \approx 10.9\%$

Como nós, em medicina, geralmente estamos interessados em estudar falhas, precisamos incluir o lado oposto da probabilidade, mesmo que nossa intenção seja fazer o bem e introduzir um tratamento benéfico.

Meu gráfico de moedas lançadas

Reflexões ligeiramente fora de tópico

Este exemplo simples também mostra quão dependentes somos da hipótese nula para calcular o valor-p. Também gosto de destacar a semelhança entre a curva binomial e a curva de sino. Ao mudar para 200 movimentos, você obtém uma maneira natural de explicar por que a probabilidade de obter exatamente 100 movimentos começa a não ter relevância. Os intervalos de definição de interesse são uma transição natural para as funções de densidade de probabilidade / função de massa e suas contrapartes acumuladas.

Na minha turma, recomendo a eles os vídeos estatísticos da academia Khan e também uso algumas de suas explicações para certos conceitos. Eles também jogam moedas onde analisamos a aleatoriedade da moeda lançada - o que eu tento mostrar é que a aleatoriedade é mais aleatória do que aquilo que geralmente acreditamos inspirado neste episódio do Radiolab .

O código

Normalmente, tenho um gráfico / slide, o código R que usei para criar o gráfico:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Max Gordon
fonte

Grande resposta Max - e obrigado por reconhecer a não-trivial da minha pergunta :)

Tal Galili

+1 boa resposta, muito completa. Perdoe-me, mas vou detalhar duas coisas. 1) o valor-p é entendido como a probabilidade de os dados serem tão extremos ou mais extremos quanto os seus sob o nulo; portanto, sua resposta está correta. No entanto, ao usar dados discretos como sua moeda, isso é inapropriadamente conservador. É melhor usar o que é chamado de "valor médio p", ou seja, 1/2 da probabilidade de dados tão extremos quanto o seu + a probabilidade de dados serem mais extremos. Uma discussão fácil sobre essas questões pode ser encontrada em Agresti (2007) 2.6.3. (cont.)

gung - Restabelece Monica

2) Você afirma que a aleatoriedade é mais aleatória do que acreditamos. Eu posso adivinhar o que você quer dizer com isso (não tive a chance de ouvir o episódio do Radiolab que você vincula, mas eu irei). Curiosamente, eu sempre disse aos alunos que a aleatoriedade é menos aleatória do que você pensa. Estou me referindo aqui à percepção de riscos (por exemplo, no jogo). As pessoas acreditam que eventos aleatórios devem alternar muito mais do que os eventos aleatórios realmente fazem e, como resultado, acreditam que veem riscos. Ver Falk (1997) Compreendendo a aleatoriedade Psych Rev 104,2. Novamente, você não está errado - apenas alimento para pensar.

gung - Restabelece Monica

Obrigado @gung por sua contribuição. Na verdade, eu nunca ouvi falar do valor médio - isso faz sentido. Não tenho certeza se é algo que eu mencionaria ao ensinar estatística básica, pois pode dar uma sensação de perder a sensação prática que tento transmitir. Em relação à aleatoriedade, queremos dizer exatamente o mesmo - ao ver um número verdadeiramente aleatório, somos enganados ao pensar que há um padrão para ela. Eu acho que eu ouvi no Freakonomics Podcast loucura de previsão que ...

Max Gordon

... ao longo dos anos, a mente humana aprendeu que deixar de detectar um predador é mais caro do que pensar que provavelmente não é nada. Gosto dessa analogia e tento dizer aos meus colegas que uma das principais razões para o uso de estatísticas é ajudar-nos com esse defeito com o qual todos nascemos.

Max Gordon

Suponha que você queira testar a hipótese de que a altura média dos homens é de 5 pés e 7 polegadas. Você seleciona uma amostra aleatória de homens, mede suas alturas e calcula a média da amostra. Sua hipótese então é:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

Na situação acima, você faz um teste bicaudal, pois rejeitaria seu nulo se a média da amostra for muito baixa ou muito alta.

Nesse caso, o valor p representa a probabilidade de realizar uma média amostral que seja pelo menos tão extrema quanto a que realmente obtivemos assumindo que o nulo é de fato verdadeiro. Portanto, se a média da amostra for "5 pés 8 polegadas", o valor-p representará a probabilidade de observar alturas maiores que "5 pés 8 polegadas" ou alturas menores que "5 pés 6 polegadas", desde que nulo é verdade.

Se, por outro lado, sua alternativa foi enquadrada da seguinte forma:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

Na situação acima, você faria um teste unilateral no lado direito. O motivo é que você preferiria rejeitar o nulo em favor da alternativa apenas se a média da amostra for extremamente alta.

A interpretação do valor-p permanece a mesma com a leve nuance de que agora estamos falando sobre a probabilidade de realizar uma média amostral maior que a que realmente obtivemos. Portanto, se a média da amostra for "5 pés 8 polegadas", o valor-p representará a probabilidade de observar alturas maiores que "5 pés 8 polegadas", desde que o valor nulo seja verdadeiro.

varty
fonte

H_{A}

$H_A$

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$ .

chl

@chl eu concordo. No entanto, para uma pessoa que está sendo introduzida apenas em idéias estatísticas, reescrever o nulo para um teste de uma cauda pode ser uma distração quando o foco é em como e por que as coisas mudam com relação à interpretação do valor-p.

Varty

Justo. Vale a pena mencionar, mesmo para fins de ensino.

chl

Explicando testes bicaudais

Respostas:

Minha maneira de explicar o cálculo dos valores-p e as caudas

Reflexões ligeiramente fora de tópico

O código