Entendendo mal um valor-P?

16

Então, eu tenho lido muito sobre como interpretar corretamente um valor P e, pelo que li, o valor p diz NADA sobre a probabilidade de a hipótese nula ser verdadeira ou falsa. No entanto, ao ler a seguinte declaração:

O valor p representa a probabilidade de cometer um erro do tipo I ou de rejeitar a hipótese nula quando verdadeira. Quanto menor o valor p, menor é a probabilidade de você rejeitar erroneamente a hipótese nula.

EDIT: E, 5 minutos depois, li:

Interpretações incorretas dos valores de P são muito comuns. O erro mais comum é interpretar um valor P como a probabilidade de cometer um erro, rejeitando uma hipótese nula verdadeira (um erro do tipo I).

Isso me confundiu. Qual deles está correto? E alguém pode explicar como interpretar corretamente o valor-p e como ele se relaciona corretamente com a probabilidade de cometer um erro do tipo I?

rb612
fonte
1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueO valor p representa a probabilidade a priori de cometer um erro do tipo I, ou seja, de rejeitar a hipótese nula sob a premissa de que ela é verdadeira.
precisa saber é o seguinte
4
@Paul: a probabilidade de rejeitar o nulo condicional se o nulo for verdadeiro é a probabilidade de um erro do tipo I, isso não é o mesmo que um valor-p. A probabilidade de um erro do tipo I é igual (para variáveis ​​aleatórias contínuas) ao nível de significância escolhido, veja também minha resposta abaixo.
Sim, entendo agora, você está absolutamente certo.
Paul
4
@fcoppens A probabilidade de um erro do tipo I é igual apenas ao nível pré-escolhido de alfa se você condicionar a hipótese nula de ser verdadeira. Em um caso incondicional, você não sabe se o nulo é verdadeiro ou falso e, portanto, só pode especificar uma probabilidade de erro do tipo I se fornecer uma probabilidade anterior para a verdade do nulo.
Michael Lew - restabelece Monica
@ Michael Lew: Esse condicionamento do nulo é mencionado na minha resposta abaixo?

Respostas:

25

Por causa dos seus comentários, farei duas seções separadas:

valores p

No teste de hipótese estatística, você pode encontrar 'evidência estatística' para a hipótese alternativa ; Como expliquei em O que se segue se falharmos em rejeitar a hipótese nula? , é semelhante a 'prova por contradição' em matemática.

Portanto, se queremos encontrar 'evidência estatística', assumimos o oposto, que denotamos do que tentamos provar que chamamos de H 1 . Depois disso, extraímos uma amostra e, a partir da amostra, calculamos a chamada estatística de teste (por exemplo, um valor t em um teste t).H0H1

Então, como assumimos que é verdadeiro e que nossa amostra é retirada aleatoriamente da distribuição em H 0 , podemos calcular a probabilidade de observar valores que excedam ou igualam o valor derivado de nossa amostra (aleatória). Essa probabilidade é chamada de valor-p.H0H0

Se esse valor for "suficientemente pequeno", ou seja, menor que o nível de significância escolhido, rejeitamos e consideramos que H 1 é "estatisticamente comprovado".H0H1

Várias coisas são importantes nessa maneira de fazer:

  • derivamos probabilidades sob a suposição de que é verdadeiroH0
  • tiramos uma amostra aleatória da distribuição que foi assumida sob H0
  • que decidir ter evidência encontrada para se o teste-estatística derivado da amostra aleatória tem uma baixa probabilidade de ser excedido. Portanto, não é impossível que seja excedido enquanto H 0 é verdadeiro e, nesses casos, cometemos um erro do tipo I. H1H0

Então, o que é um erro do tipo I: um erro do tipo I é cometido quando a amostra, extraída aleatoriamente de , leva à conclusão de que H 0 é falso, enquanto na realidade é verdade.H0H0

Note que isto implica que um p-valor não é a probabilidade de um erro de tipo I . De fato, um erro do tipo I é uma decisão errada do teste e a decisão só pode ser tomada comparando o valor-p com o nível de significância escolhido, com um valor-p sozinho não é possível tomar uma decisão, é somente após a comparação o valor p para o nível de significância escolhido que uma decisão é tomada e, desde que nenhuma decisão seja tomada, o erro do tipo I nem mesmo é definido.

Qual é então o valor de p? A rejeição potencialmente errada de se deve ao fato de desenharmos uma amostra aleatória sob H 0 , de modo que podemos ter "má sorte" ao desenhar a amostra e que essa "má sorte" leva a uma falsa rejeição de H 0 . Portanto, o valor p (embora isso não esteja totalmente correto) é mais parecido com a probabilidade de extrair uma "amostra ruim". A interpretação correta do valor-p é que é a probabilidade de a estatística de teste exceder ou ser igual ao valor da estatística de teste derivada de uma amostra sorteada sob H 0H0H0H0H0


Taxa de descoberta falsa (FDR)

Como explicado acima, cada vez que a hipótese nula é rejeitada, considera-se como 'evidência estatística' para . Por isso, descobrimos novos conhecimentos científicos, por isso é chamado de descoberta . Também explicado acima é que podemos fazer descobertas falsas (ou seja, rejeitar falsamente H 0 ) quando cometemos um erro do tipo I. Nesse caso, temos uma crença falsa de uma verdade científica. Queremos apenas descobrir coisas realmente verdadeiras e, portanto, tenta-se reduzir ao mínimo as falsas descobertas, ou seja, controlamos um erro do tipo I. Não é tão difícil perceber que a probabilidade de um erro do tipo I é o nível de significância α escolhido . Portanto, para controlar erros do tipo I, corrige-se um αH1H0αα-nível refletindo sua vontade de aceitar '' falsas evidências ''.

Intuitivamente, isso significa que, se extrairmos um grande número de amostras e, com cada amostra, realizarmos o teste, uma fração desses testes levará a uma conclusão errada. É importante notar que estamos "calculando a média de muitas amostras" ; mesmo teste, muitas amostras. α

Se usarmos a mesma amostra para fazer muitos testes diferentes , teremos um erro de teste múltiplo (consulte o meu comentário sobre o limite de erro familiar: A reutilização de conjuntos de dados em diferentes estudos de perguntas independentes leva a vários problemas de teste? ). Nesse caso, pode-se controlar inflação α usando técnicas para controlar a taxa de erro familiar (FWER) , como, por exemplo, uma correção de Bonferroni.α

Uma abordagem diferente da FWER é controlar a taxa de falsas descobertas (FDR) . Nesse caso, controla-se o número de descobertas falsas (DF) entre todas as descobertas (D); portanto, controla-se , D é o número deH0rejeitado.FDDH0

Portanto, a probabilidade de erro do tipo I tem a ver com a execução do mesmo teste em muitas amostras diferentes. Para um grande número de amostras, a probabilidade de erro do tipo I convergirá para o número de amostras, levando a uma rejeição falsa dividida pelo número total de amostras coletadas .

O FDR tem a ver com muitos testes na mesma amostra e, para um grande número de testes, converge para o número de testes em que é cometido um erro do tipo I (ou seja, o número de descobertas falsas) dividido pelo número total de rejeições de (ou seja, o número total de descobertas)H0 .

Observe que, comparando os dois parágrafos acima:

  1. O contexto é diferente; um teste e muitas amostras versus muitos testes e uma amostra.
  2. O denominador para calcular a probabilidade de erro do tipo I é claramente diferente do denominador para calcular o FDR. Os numeradores são semelhantes, mas têm um contexto diferente.

O FDR diz a você que, se você executar muitos testes na mesma amostra e encontrar 1000 descobertas (ou seja, rejeições de ), com um FDR de 0,38, você terá 0,38 × 1000 descobertas falsas.H00.38×1000

Greenstick
fonte
5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0É assim? Não é "igual ou superior a"? O valor P é o prob que, sob H0 verdadeiro, observamos a diferença ou associação este ou mais forte do que o realmente observado.
precisa saber é o seguinte
@ttnphns Para uma estatística de teste contínuo, não há diferença porque a medida de um ponto é zero. Para uma estatística de teste discreta, você está certo (+1). Eu mudei o texto de acordo.
1
Você faz uma distinção muito útil entre valores-P e taxas de erro tipo I, mas acho que você precisa ter mais cuidado com a palavra "comprovada". Adicionar o modificador "estatisticamente" não o suaviza o suficiente, na minha opinião.
Michael Lew - restabelece Monica
1
Você lidou com a evidência como se ela tivesse apenas um estado binário: existe e não existe. No entendimento padrão de evidência não estatística, o conceito de palavra tem uma existência graduada e é mais complicado do que uma única dimensão de força pode capturar. A dificuldade vem da incompatibilidade de considerações sobre taxa de erro com interpretações comuns de evidências. Eu ficaria muito interessado em ler qualquer relato que capte a interpretação não binária de 'evidência' dentro da estrutura de FDR. (Eu não vi ainda.)
Michael Lew - Reintegrar Monica
1
Obrigado pela correção. Fiz a alteração pertinente ontem à noite e creditei sua postagem.
Antoni Parellada
4

A primeira afirmação não é estritamente verdadeira.

De um artigo bacana sobre o mal-entendido de significado: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Esta afirmação] pode parecer semelhante à definição de um erro do Tipo I (ou seja, a probabilidade de rejeitar o H0, embora seja de fato verdade), mas, na verdade, tendo rejeitado o H0, essa decisão seria errada se e somente se o H0 era verdadeiro. Portanto, a probabilidade "de que você está tomando a decisão errada" é p (H0) e essa probabilidade ... não pode ser derivada com teste de significância de hipótese nula. "

Mais simplesmente, para avaliar a probabilidade de você ter rejeitado H0 incorretamente, você precisa da probabilidade de H0 ser verdadeira que você simplesmente não pode obter usando este teste.

Henry B
fonte
Obrigado! Então, quando estou lendo a primeira parte de statisticsdonewrong.com/p-value.html , o autor conclui que o FDR é de 38%, portanto, a probabilidade de um erro do tipo I é de 38%?
Rb612
O FDR é a taxa de descoberta falsa e é muito diferente do erro do tipo I, portanto, a resposta para sua pergunta no. O FDR tem a ver com vários testes, ou seja, quando você executa vários testes na mesma amostra, consulte stats.stackexchange.com/questions/164181/… . O FDR é uma alternativa à Taxa de erro familiar, mas explica que o número de caracteres em um comentário é muito limitado.
Eu adicionei uma segunda seção na minha resposta para explicar o FDR.
1
Assim como não é possível determinar a probabilidade de H0 ser verdadeira sem um prior, não é possível determinar o FDR sem um prior. Tenha cuidado ao interpretar os documentos de FDR, porque os anteriores usados ​​neles podem não ser necessariamente relevantes para suas próprias circunstâncias experimentais.
Michael Lew - restabelece Monica
1

A interpretação correta de um valor-p é a probabilidade condicional de um resultado pelo menos tão condutivo à hipótese alternativa quanto o valor observado (pelo menos como "extremo"), assumindo que a hipótese nula seja verdadeira . Interpretações incorretas geralmente envolvem uma probabilidade marginal ou uma alternância da condição:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).
Restabelecer Monica
fonte
-1

O valor p permite determinar se a hipótese nula (ou a hipótese reivindicada) pode ser rejeitada ou não. Se o valor de p for menor que o nível de significância, α, isso representa um resultado estatisticamente significativo e a hipótese nula deve ser rejeitada. Se o valor de p for maior que o nível de significância, α, a hipótese nula não poderá ser rejeitada. Esse é o motivo de procurar o valor-p se você estiver usando a tabela ou usando uma calculadora on-line, como esta, calculadora de valor-p , para encontrar o valor-p na estatística de teste.

Agora eu sei que você mencionou erros do tipo I e tipo II. Isso realmente não tem nada a ver com o valor-p. Isso tem a ver com os dados originais, como o tamanho da amostra usado e os valores obtidos para os dados. Se o tamanho da amostra for muito pequeno, por exemplo, isso pode levar a um erro do tipo I.

user1445657
fonte
2
-1. Lamento recebê-lo em nosso site com um voto negativo, mas essa resposta é claramente incorreta: simplesmente não é o caso de o valor-p ser a probabilidade de verdade da hipótese nula. Isso é amplamente discutido em muitos tópicos sobre valores-p e testes de hipóteses, como stats.stackexchange.com/questions/31 .
whuber
1
Modifiquei a resposta original um pouco para torná-la mais precisa.
user1445657