Então, eu tenho lido muito sobre como interpretar corretamente um valor P e, pelo que li, o valor p diz NADA sobre a probabilidade de a hipótese nula ser verdadeira ou falsa. No entanto, ao ler a seguinte declaração:
O valor p representa a probabilidade de cometer um erro do tipo I ou de rejeitar a hipótese nula quando verdadeira. Quanto menor o valor p, menor é a probabilidade de você rejeitar erroneamente a hipótese nula.
EDIT: E, 5 minutos depois, li:
Interpretações incorretas dos valores de P são muito comuns. O erro mais comum é interpretar um valor P como a probabilidade de cometer um erro, rejeitando uma hipótese nula verdadeira (um erro do tipo I).
Isso me confundiu. Qual deles está correto? E alguém pode explicar como interpretar corretamente o valor-p e como ele se relaciona corretamente com a probabilidade de cometer um erro do tipo I?
fonte
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
O valor p representa a probabilidade a priori de cometer um erro do tipo I, ou seja, de rejeitar a hipótese nula sob a premissa de que ela é verdadeira.Respostas:
Por causa dos seus comentários, farei duas seções separadas:
valores p
No teste de hipótese estatística, você pode encontrar 'evidência estatística' para a hipótese alternativa ; Como expliquei em O que se segue se falharmos em rejeitar a hipótese nula? , é semelhante a 'prova por contradição' em matemática.
Portanto, se queremos encontrar 'evidência estatística', assumimos o oposto, que denotamos do que tentamos provar que chamamos de H 1 . Depois disso, extraímos uma amostra e, a partir da amostra, calculamos a chamada estatística de teste (por exemplo, um valor t em um teste t).H0 H1
Então, como assumimos que é verdadeiro e que nossa amostra é retirada aleatoriamente da distribuição em H 0 , podemos calcular a probabilidade de observar valores que excedam ou igualam o valor derivado de nossa amostra (aleatória). Essa probabilidade é chamada de valor-p.H0 H0
Se esse valor for "suficientemente pequeno", ou seja, menor que o nível de significância escolhido, rejeitamos e consideramos que H 1 é "estatisticamente comprovado".H0 H1
Várias coisas são importantes nessa maneira de fazer:
Então, o que é um erro do tipo I: um erro do tipo I é cometido quando a amostra, extraída aleatoriamente de , leva à conclusão de que H 0 é falso, enquanto na realidade é verdade.H0 H0
Note que isto implica que um p-valor não é a probabilidade de um erro de tipo I . De fato, um erro do tipo I é uma decisão errada do teste e a decisão só pode ser tomada comparando o valor-p com o nível de significância escolhido, com um valor-p sozinho não é possível tomar uma decisão, é somente após a comparação o valor p para o nível de significância escolhido que uma decisão é tomada e, desde que nenhuma decisão seja tomada, o erro do tipo I nem mesmo é definido.
Qual é então o valor de p? A rejeição potencialmente errada de se deve ao fato de desenharmos uma amostra aleatória sob H 0 , de modo que podemos ter "má sorte" ao desenhar a amostra e que essa "má sorte" leva a uma falsa rejeição de H 0 . Portanto, o valor p (embora isso não esteja totalmente correto) é mais parecido com a probabilidade de extrair uma "amostra ruim". A interpretação correta do valor-p é que é a probabilidade de a estatística de teste exceder ou ser igual ao valor da estatística de teste derivada de uma amostra sorteada sob H 0H0 H0 H0 H0
Taxa de descoberta falsa (FDR)
Como explicado acima, cada vez que a hipótese nula é rejeitada, considera-se como 'evidência estatística' para . Por isso, descobrimos novos conhecimentos científicos, por isso é chamado de descoberta . Também explicado acima é que podemos fazer descobertas falsas (ou seja, rejeitar falsamente H 0 ) quando cometemos um erro do tipo I. Nesse caso, temos uma crença falsa de uma verdade científica. Queremos apenas descobrir coisas realmente verdadeiras e, portanto, tenta-se reduzir ao mínimo as falsas descobertas, ou seja, controlamos um erro do tipo I. Não é tão difícil perceber que a probabilidade de um erro do tipo I é o nível de significância α escolhido . Portanto, para controlar erros do tipo I, corrige-se um αH1 H0 α α -nível refletindo sua vontade de aceitar '' falsas evidências ''.
Intuitivamente, isso significa que, se extrairmos um grande número de amostras e, com cada amostra, realizarmos o teste, uma fração desses testes levará a uma conclusão errada. É importante notar que estamos "calculando a média de muitas amostras" ; mesmo teste, muitas amostras.α
Se usarmos a mesma amostra para fazer muitos testes diferentes , teremos um erro de teste múltiplo (consulte o meu comentário sobre o limite de erro familiar: A reutilização de conjuntos de dados em diferentes estudos de perguntas independentes leva a vários problemas de teste? ). Nesse caso, pode-se controlar inflação α usando técnicas para controlar a taxa de erro familiar (FWER) , como, por exemplo, uma correção de Bonferroni.α
Uma abordagem diferente da FWER é controlar a taxa de falsas descobertas (FDR) . Nesse caso, controla-se o número de descobertas falsas (DF) entre todas as descobertas (D); portanto, controla-se , D é o número deH0rejeitado.FDD H0
Portanto, a probabilidade de erro do tipo I tem a ver com a execução do mesmo teste em muitas amostras diferentes. Para um grande número de amostras, a probabilidade de erro do tipo I convergirá para o número de amostras, levando a uma rejeição falsa dividida pelo número total de amostras coletadas .
O FDR tem a ver com muitos testes na mesma amostra e, para um grande número de testes, converge para o número de testes em que é cometido um erro do tipo I (ou seja, o número de descobertas falsas) dividido pelo número total de rejeições de (ou seja, o número total de descobertas)H0 .
Observe que, comparando os dois parágrafos acima:
O FDR diz a você que, se você executar muitos testes na mesma amostra e encontrar 1000 descobertas (ou seja, rejeições de ), com um FDR de 0,38, você terá 0,38 × 1000 descobertas falsas.H0 0.38×1000
fonte
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0
É assim? Não é "igual ou superior a"? O valor P é o prob que, sob H0 verdadeiro, observamos a diferença ou associação este ou mais forte do que o realmente observado.A primeira afirmação não é estritamente verdadeira.
De um artigo bacana sobre o mal-entendido de significado: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )
Mais simplesmente, para avaliar a probabilidade de você ter rejeitado H0 incorretamente, você precisa da probabilidade de H0 ser verdadeira que você simplesmente não pode obter usando este teste.
fonte
A interpretação correta de um valor-p é a probabilidade condicional de um resultado pelo menos tão condutivo à hipótese alternativa quanto o valor observado (pelo menos como "extremo"), assumindo que a hipótese nula seja verdadeira . Interpretações incorretas geralmente envolvem uma probabilidade marginal ou uma alternância da condição:
fonte
O valor p permite determinar se a hipótese nula (ou a hipótese reivindicada) pode ser rejeitada ou não. Se o valor de p for menor que o nível de significância, α, isso representa um resultado estatisticamente significativo e a hipótese nula deve ser rejeitada. Se o valor de p for maior que o nível de significância, α, a hipótese nula não poderá ser rejeitada. Esse é o motivo de procurar o valor-p se você estiver usando a tabela ou usando uma calculadora on-line, como esta, calculadora de valor-p , para encontrar o valor-p na estatística de teste.
Agora eu sei que você mencionou erros do tipo I e tipo II. Isso realmente não tem nada a ver com o valor-p. Isso tem a ver com os dados originais, como o tamanho da amostra usado e os valores obtidos para os dados. Se o tamanho da amostra for muito pequeno, por exemplo, isso pode levar a um erro do tipo I.
fonte