Comparação e contraste, valores de p, níveis de significância e erro do tipo I

21

Eu queria saber se alguém poderia dar um resumo conciso sobre as definições e usos dos valores-p, nível de significância e erro tipo I.

Entendo que os valores de p são definidos como "a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que realmente observamos", enquanto um nível de significância é apenas um valor de corte arbitrário para avaliar se o valor de p é significativo ou não . Erro tipo I é o erro de rejeitar uma hipótese nula que era verdadeira. No entanto, não tenho certeza sobre a diferença entre o nível de significância e o erro do tipo I, eles não são o mesmo conceito?

Por exemplo, suponha um experimento muito simples, onde eu jogo uma moeda 1000 vezes e conto o número de vezes que ela cai nas 'cabeças'. Minha hipótese nula, H0, é que as cabeças = 500 (moeda imparcial). Em seguida, defino meu nível de significância em alfa = 0,05.

Eu jogo a moeda 1000 vezes e depois calculo o valor-p, se o valor-p for> 0,05, não rejeito a hipótese nula e se o valor-p for <0,05, rejeito a hipótese nula.

Agora, se eu fizesse esse experimento repetidamente, cada vez que calculava o valor-p e rejeitava ou deixava de rejeitar a hipótese nula e mantendo uma contagem de quantas rejeitei / deixei de rejeitar, acabaria rejeitando 5% das hipóteses nulas que na verdade eram verdadeiros, está correto? Esta é a definição do erro do tipo I. Portanto, o nível de significância no teste de significância de Fisher é essencialmente o erro tipo I do teste de hipótese de Neyman-Pearson se você executou experimentos repetidos.

Agora, quanto aos valores de p, se eu tivesse obtido um valor de p de 0,06 no meu último experimento e fiz várias experiências e contei todas as que obtive um valor de p de 0 a 0,06, então eu também não teria um 6% de chance de rejeitar uma hipótese nula verdadeira?

BYS2
fonte

Respostas:

16

A questão parece simples, mas sua reflexão mostra que não é assim tão simples.

Na verdade, os valores de p são uma adição relativamente tardia à teoria da estatística. Computar um valor-p sem um computador é muito tedioso; é por isso que a única maneira de realizar um teste estatístico até recentemente era usar tabelas de testes estatísticos, como explico nesta postagem do blog . Como essas tabelas foram calculadas para níveis fixos de (normalmente 0,05, 0,01 e 0,001), você só pode executar um teste com esses níveis.α

Os computadores tornaram essas tabelas inúteis, mas a lógica dos testes ainda é a mesma. Você deve:

  1. Formule uma hipótese nula.
  2. Formule uma hipótese alternativa.
  3. Decida um erro máximo de erro tipo I (a probabilidade de rejeitar falsamente a hipótese nula) que você está pronto para aceitar.
  4. Crie uma região de rejeição. A probabilidade de a estatística de teste cair na região de rejeição, uma vez que a hipótese nula é o seu nível . Como o @ MånsT explica, esse erro não deve ser menor que o erro aceitável do tipo I e, em muitos casos, usar aproximações assintóticas.α
  5. Realize o experimento aleatório, calcule a estatística do teste e veja se ela cai na região de rejeição.

Em teoria, há uma estrita equivalência entre os eventos "a estatística cai na região de rejeição" e "o p-valor é menor do que "α , razão pela qual considera-se que você pode relatar o valor-p vez . Na prática, permite que você pule a etapa 3. e avalie o erro do tipo I após a conclusão do teste .

Para voltar à sua postagem, a declaração da hipótese nula está incorreta. A hipótese nula é que a probabilidade de sacudir a cabeça é (a hipótese nula de não podem ser atribuídos aos resultados da experiência aleatória).1/2

Se você repetir o experimento repetidamente com um valor-p de limiar de 0,05, sim, você deve ter aproximadamente 5% de rejeição. E se você definir um valor de p de 0,06, deverá acabar com aproximadamente 6% de rejeição. De maneira mais geral, para testes contínuos, por definição do valor de p

Prob(p<x)=x,(0 0<x<1),

o que é apenas aproximadamente verdadeiro para testes discretos.

Aqui está um código R que, espero, possa esclarecer um pouco isso. O teste binomial é relativamente lento, por isso faço apenas 10.000 experimentos aleatórios em que jogo 1000 moedas. Realizo um teste binomial e coleciono os 10.000 valores de p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Você pode ver que as proporções não são exatas, porque o tamanho da amostra não é infinito e o teste é discreto, mas ainda há um aumento de aproximadamente 1% entre os dois.

gui11aume
fonte
@ MånsT Obrigado! +1 para você pela distinção entre testes contínuos e discretos (que eu honestamente ignoraria completamente).
precisa saber é
4
@ gui11aume, obrigado pela sua contribuição! No entanto, sua afirmação de "valores-p são uma adição relativamente tardia à teoria da estatística" é estranha. Pelo que li, o 'teste de significância' de Fisher com valores-p se originou por volta de 1925. Enquanto o 'teste de hipóteses' de Neyman-Pearson surgiu como uma 'melhoria' do trabalho de Fisher, alguns anos depois. Embora seja verdade que os valores de p eram difíceis de calcular (por isso, por que os níveis padrão de significância foram usados), seu trabalho foi monumental. De fato, ele é chamado de "o pai da estatística" porque formou a base de grande parte das estatísticas modernas.
BYS2
2
@ BYS2 Absolutamente certo (+1). A teoria dos valores p remonta à origem da estatística. É o seu uso generalizado que é recente. Obrigado por reparar ;-)
gui11aume
@ guillaume obrigado por isso, eu tenho outra pergunta rápida embora. Você diz que minha hipótese nula não pode ser H 0 = 500, mas parece que vários textos usam, por exemplo: a hipótese nula é que a média será 0 ou que a diferença de médias será 10 .. Eu nunca tive problemas fazendo assim: s .. A distribuição t basicamente escala se eu usei H0 = 500 em vez de H0 = 0.5
BYS2
1
@ gui11aume: Talvez possa ser interessante dar uma olhada na minha resposta: stats.stackexchange.com/questions/166323/…
15

Você está obtendo boas respostas aqui em @MansT & @ gui11aume (+1 em cada). Deixe-me ver se consigo obter algo mais explícito nas duas respostas.

nk

p(k)=n!k!(n-k)!pk(1-p)n-k
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αerro tipo Iα.05probabilidades binomiais. Observe ainda que situações como essa levaram ao desenvolvimento do valor p médio para ajudar a minimizar a discrepância entre o valor p e o nível de significância.

Pode haver casos em que o valor p calculado não seja igual à taxa de erro do tipo I de longo prazo, além do fato de que a taxa de erro do tipo I não seja necessariamente igual ao nível de significância. Considere uma tabela de contingência 2x2 com estas contagens observadas:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

Portanto, os problemas aqui são que, com dados discretos:

  • seu nível de significância preferido pode não ser uma das possíveis taxas de erro tipo I, &
  • o uso de aproximações (convencionais) para estatísticas contínuas produzirá valores p calculados imprecisos.

N

(Embora a pergunta não pergunte sobre soluções para esses problemas), existem coisas que atenuam esses problemas:

  • N
  • geralmente existem correções (como a correção de continuidade de Yates) que aproximam os valores calculados dos valores corretos,
  • N
  • o valor p médio oferece a possibilidade de aproximar sua taxa de erro tipo I do nível de confiança escolhido,
  • você pode usar explicitamente uma das taxas de erro tipo I existentes (ou anotar o que seria).
- Reinstate Monica
fonte
Ótimo que você tenha entrado nos detalhes que deixamos ao lado (+1).
precisa saber é o seguinte
@gung - você poderia comentar como obteve as taxas de erro tipo I da primeira tabela?
fácil
@ stats134711, é apenas a soma das probabilidades individuais das opções que são tão extremas ou mais extremas (bicaudais).
gung - Restabelece Monica
14

Os conceitos estão de fato intimamente ligados um ao outro.

P(type Eu error)=ααP(type Eu error)ααP(type Eu error)αα

O valor p é o nível de significância mais baixo no qual a hipótese nula seria aceita . Assim, ele nos diz "quão significativo" é o resultado.

MånsT
fonte