Entendendo mal um valor-P?

16

Então, eu tenho lido muito sobre como interpretar corretamente um valor P e, pelo que li, o valor p diz NADA sobre a probabilidade de a hipótese nula ser verdadeira ou falsa. No entanto, ao ler a seguinte declaração:

O valor p representa a probabilidade de cometer um erro do tipo I ou de rejeitar a hipótese nula quando verdadeira. Quanto menor o valor p, menor é a probabilidade de você rejeitar erroneamente a hipótese nula.

EDIT: E, 5 minutos depois, li:

Interpretações incorretas dos valores de P são muito comuns. O erro mais comum é interpretar um valor P como a probabilidade de cometer um erro, rejeitando uma hipótese nula verdadeira (um erro do tipo I).

Isso me confundiu. Qual deles está correto? E alguém pode explicar como interpretar corretamente o valor-p e como ele se relaciona corretamente com a probabilidade de cometer um erro do tipo I?

hypothesis-testing p-value rb612
fonte

1

The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueO valor p representa a probabilidade a priori de cometer um erro do tipo I, ou seja, de rejeitar a hipótese nula sob a premissa de que ela é verdadeira.

precisa saber é o seguinte

4

@Paul: a probabilidade de rejeitar o nulo condicional se o nulo for verdadeiro é a probabilidade de um erro do tipo I, isso não é o mesmo que um valor-p. A probabilidade de um erro do tipo I é igual (para variáveis aleatórias contínuas) ao nível de significância escolhido, veja também minha resposta abaixo.

Sim, entendo agora, você está absolutamente certo.

Paul

4

@fcoppens A probabilidade de um erro do tipo I é igual apenas ao nível pré-escolhido de alfa se você condicionar a hipótese nula de ser verdadeira. Em um caso incondicional, você não sabe se o nulo é verdadeiro ou falso e, portanto, só pode especificar uma probabilidade de erro do tipo I se fornecer uma probabilidade anterior para a verdade do nulo.

Michael Lew - restabelece Monica

@ Michael Lew: Esse condicionamento do nulo é mencionado na minha resposta abaixo?

25

Por causa dos seus comentários, farei duas seções separadas:

valores p

No teste de hipótese estatística, você pode encontrar 'evidência estatística' para a hipótese alternativa ; Como expliquei em O que se segue se falharmos em rejeitar a hipótese nula? , é semelhante a 'prova por contradição' em matemática.

Portanto, se queremos encontrar 'evidência estatística', assumimos o oposto, que denotamos do que tentamos provar que chamamos de . Depois disso, extraímos uma amostra e, a partir da amostra, calculamos a chamada estatística de teste (por exemplo, um valor t em um teste t). $H_0$ $H_1$

Então, como assumimos que é verdadeiro e que nossa amostra é retirada aleatoriamente da distribuição em , podemos calcular a probabilidade de observar valores que excedam ou igualam o valor derivado de nossa amostra (aleatória). Essa probabilidade é chamada de valor-p. $H_0$ $H_0$

Se esse valor for "suficientemente pequeno", ou seja, menor que o nível de significância escolhido, rejeitamos e consideramos que é "estatisticamente comprovado". $H_0$ $H_1$

Várias coisas são importantes nessa maneira de fazer:

derivamos probabilidades sob a suposição de que é verdadeiro $H_0$
tiramos uma amostra aleatória da distribuição que foi assumida sob $H_0$
que decidir ter evidência encontrada para se o teste-estatística derivado da amostra aleatória tem uma baixa probabilidade de ser excedido. Portanto, não é impossível que seja excedido enquanto é verdadeiro e, nesses casos, cometemos um erro do tipo I. $H_1$ $H_0$

Então, o que é um erro do tipo I: um erro do tipo I é cometido quando a amostra, extraída aleatoriamente de , leva à conclusão de que é falso, enquanto na realidade é verdade. $H_0$ $H_0$

Note que isto implica que um p-valor não é a probabilidade de um erro de tipo I . De fato, um erro do tipo I é uma decisão errada do teste e a decisão só pode ser tomada comparando o valor-p com o nível de significância escolhido, com um valor-p sozinho não é possível tomar uma decisão, é somente após a comparação o valor p para o nível de significância escolhido que uma decisão é tomada e, desde que nenhuma decisão seja tomada, o erro do tipo I nem mesmo é definido.

Qual é então o valor de p? A rejeição potencialmente errada de se deve ao fato de desenharmos uma amostra aleatória sob , de modo que podemos ter "má sorte" ao desenhar a amostra e que essa "má sorte" leva a uma falsa rejeição de . Portanto, o valor p (embora isso não esteja totalmente correto) é mais parecido com a probabilidade de extrair uma "amostra ruim". A interpretação correta do valor-p é que é a probabilidade de a estatística de teste exceder ou ser igual ao valor da estatística de teste derivada de uma amostra sorteada sob $H_0$ $H_0$ $H_0$ $H_0$

Taxa de descoberta falsa (FDR)

Como explicado acima, cada vez que a hipótese nula é rejeitada, considera-se como 'evidência estatística' para . Por isso, descobrimos novos conhecimentos científicos, por isso é chamado de descoberta . Também explicado acima é que podemos fazer descobertas falsas (ou seja, rejeitar falsamente ) quando cometemos um erro do tipo I. Nesse caso, temos uma crença falsa de uma verdade científica. Queremos apenas descobrir coisas realmente verdadeiras e, portanto, tenta-se reduzir ao mínimo as falsas descobertas, ou seja, controlamos um erro do tipo I. Não é tão difícil perceber que a probabilidade de um erro do tipo I é o nível de significância escolhido . Portanto, para controlar erros do tipo I, corrige-se um $H_1$ $H_0$ $\alpha$ $\alpha$ -nível refletindo sua vontade de aceitar '' falsas evidências ''.

Intuitivamente, isso significa que, se extrairmos um grande número de amostras e, com cada amostra, realizarmos o teste, uma fração desses testes levará a uma conclusão errada. É importante notar que estamos "calculando a média de muitas amostras" ; mesmo teste, muitas amostras. $\alpha$

Se usarmos a mesma amostra para fazer muitos testes diferentes , teremos um erro de teste múltiplo (consulte o meu comentário sobre o limite de erro familiar: A reutilização de conjuntos de dados em diferentes estudos de perguntas independentes leva a vários problemas de teste? ). Nesse caso, pode-se controlar inflação usando técnicas para controlar a taxa de erro familiar (FWER) , como, por exemplo, uma correção de Bonferroni. $\alpha$

Uma abordagem diferente da FWER é controlar a taxa de falsas descobertas (FDR) . Nesse caso, controla-se o número de descobertas falsas (DF) entre todas as descobertas (D); portanto, controla-se , D é o número derejeitado. $\frac{FD}{D}$ $H_0$

Portanto, a probabilidade de erro do tipo I tem a ver com a execução do mesmo teste em muitas amostras diferentes. Para um grande número de amostras, a probabilidade de erro do tipo I convergirá para o número de amostras, levando a uma rejeição falsa dividida pelo número total de amostras coletadas .

O FDR tem a ver com muitos testes na mesma amostra e, para um grande número de testes, converge para o número de testes em que é cometido um erro do tipo I (ou seja, o número de descobertas falsas) dividido pelo número total de rejeições de (ou seja, o número total de descobertas) $H_0$ .

Observe que, comparando os dois parágrafos acima:

O contexto é diferente; um teste e muitas amostras versus muitos testes e uma amostra.
O denominador para calcular a probabilidade de erro do tipo I é claramente diferente do denominador para calcular o FDR. Os numeradores são semelhantes, mas têm um contexto diferente.

O FDR diz a você que, se você executar muitos testes na mesma amostra e encontrar 1000 descobertas (ou seja, rejeições de ), com um FDR de 0,38, você terá descobertas falsas. $H_0$ $0.38 \times 1000$

Greenstick
fonte

5

The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0

É assim? Não é "igual ou superior a"? O valor P é o prob que, sob H0 verdadeiro, observamos a diferença ou associação este ou mais forte do que o realmente observado.

precisa saber é o seguinte

@ttnphns Para uma estatística de teste contínuo, não há diferença porque a medida de um ponto é zero. Para uma estatística de teste discreta, você está certo (+1). Eu mudei o texto de acordo.

1

Você faz uma distinção muito útil entre valores-P e taxas de erro tipo I, mas acho que você precisa ter mais cuidado com a palavra "comprovada". Adicionar o modificador "estatisticamente" não o suaviza o suficiente, na minha opinião.

Michael Lew - restabelece Monica

1

Você lidou com a evidência como se ela tivesse apenas um estado binário: existe e não existe. No entendimento padrão de evidência não estatística, o conceito de palavra tem uma existência graduada e é mais complicado do que uma única dimensão de força pode capturar. A dificuldade vem da incompatibilidade de considerações sobre taxa de erro com interpretações comuns de evidências. Eu ficaria muito interessado em ler qualquer relato que capte a interpretação não binária de 'evidência' dentro da estrutura de FDR. (Eu não vi ainda.)

Michael Lew - Reintegrar Monica

1

Obrigado pela correção. Fiz a alteração pertinente ontem à noite e creditei sua postagem.

Antoni Parellada

4

A primeira afirmação não é estritamente verdadeira.

De um artigo bacana sobre o mal-entendido de significado: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Esta afirmação] pode parecer semelhante à definição de um erro do Tipo I (ou seja, a probabilidade de rejeitar o H0, embora seja de fato verdade), mas, na verdade, tendo rejeitado o H0, essa decisão seria errada se e somente se o H0 era verdadeiro. Portanto, a probabilidade "de que você está tomando a decisão errada" é p (H0) e essa probabilidade ... não pode ser derivada com teste de significância de hipótese nula. "

Mais simplesmente, para avaliar a probabilidade de você ter rejeitado H0 incorretamente, você precisa da probabilidade de H0 ser verdadeira que você simplesmente não pode obter usando este teste.

Henry B
fonte

Obrigado! Então, quando estou lendo a primeira parte de statisticsdonewrong.com/p-value.html , o autor conclui que o FDR é de 38%, portanto, a probabilidade de um erro do tipo I é de 38%?

Rb612

O FDR é a taxa de descoberta falsa e é muito diferente do erro do tipo I, portanto, a resposta para sua pergunta no. O FDR tem a ver com vários testes, ou seja, quando você executa vários testes na mesma amostra, consulte stats.stackexchange.com/questions/164181/… . O FDR é uma alternativa à Taxa de erro familiar, mas explica que o número de caracteres em um comentário é muito limitado.

Eu adicionei uma segunda seção na minha resposta para explicar o FDR.

1

Assim como não é possível determinar a probabilidade de H0 ser verdadeira sem um prior, não é possível determinar o FDR sem um prior. Tenha cuidado ao interpretar os documentos de FDR, porque os anteriores usados neles podem não ser necessariamente relevantes para suas próprias circunstâncias experimentais.

Michael Lew - restabelece Monica

1

A interpretação correta de um valor-p é a probabilidade condicional de um resultado pelo menos tão condutivo à hipótese alternativa quanto o valor observado (pelo menos como "extremo"), assumindo que a hipótese nula seja verdadeira . Interpretações incorretas geralmente envolvem uma probabilidade marginal ou uma alternância da condição:

\begin{aligned} p-value = P (At least as extreme as observed outcome | H_{0}) \neq P (Type I error) . \end{aligned}

$\begin{equation} \begin{aligned} \text{p-value} = \mathbb{P}(\text{At least as extreme as observed outcome} | H_0) \neq \mathbb{P}(\text{Type I error} ). \end{aligned} \end{equation}$

Restabelecer Monica
fonte

-1

O valor p permite determinar se a hipótese nula (ou a hipótese reivindicada) pode ser rejeitada ou não. Se o valor de p for menor que o nível de significância, α, isso representa um resultado estatisticamente significativo e a hipótese nula deve ser rejeitada. Se o valor de p for maior que o nível de significância, α, a hipótese nula não poderá ser rejeitada. Esse é o motivo de procurar o valor-p se você estiver usando a tabela ou usando uma calculadora on-line, como esta, calculadora de valor-p , para encontrar o valor-p na estatística de teste.

Agora eu sei que você mencionou erros do tipo I e tipo II. Isso realmente não tem nada a ver com o valor-p. Isso tem a ver com os dados originais, como o tamanho da amostra usado e os valores obtidos para os dados. Se o tamanho da amostra for muito pequeno, por exemplo, isso pode levar a um erro do tipo I.

user1445657
fonte

2

-1. Lamento recebê-lo em nosso site com um voto negativo, mas essa resposta é claramente incorreta: simplesmente não é o caso de o valor-p ser a probabilidade de verdade da hipótese nula. Isso é amplamente discutido em muitos tópicos sobre valores-p e testes de hipóteses, como stats.stackexchange.com/questions/31 .

whuber

1

Modifiquei a resposta original um pouco para torná-la mais precisa.

user1445657

Entendendo mal um valor-P?

Respostas:

valores p

Taxa de descoberta falsa (FDR)