Quando os valores p enganam?

14

Quais são as condições de dados que devemos observar, onde os valores de p podem não ser a melhor maneira de decidir a significância estatística? Existem tipos de problemas específicos que se enquadram nessa categoria?

user179
fonte
2
Resposta sarcástica: quase sempre. Há um grande incentivo para criar erros do Tipo 1 (ou seja, "alarmes falsos") quando os analistas examinam os dados, então quase todos os valores-p que você encontrará são "muito" pequenos.
statsRus
7
Apenas lançando isso lá fora, mas esse tipo de pergunta não seria melhor colocado no Cross Validated ?
Buruzaemon 14/05
1
@buruzaemon: Talvez. Eu fiz uma pesquisa, esta é a correspondência mais próxima: stats.stackexchange.com/questions/67320/… Não parece haver mais do que um punhado de perguntas relacionadas a isso.
Alex I

Respostas:

9

Você está perguntando sobre a Dragagem de Dados , que é o que acontece ao testar um número muito grande de hipóteses em um conjunto de dados ou ao testar hipóteses em um conjunto de dados sugerido pelos mesmos dados.

Em particular, confira Risco de múltiplas hipóteses e Hipóteses de teste sugeridas pelos dados .

A solução é usar algum tipo de correção para a taxa de descoberta falsa ou a taxa de erro Familywise , como o método de Scheffé ou a correção Bonferroni (muito antiga) .

De uma maneira um pouco menos rigorosa, pode ajudar a filtrar suas descobertas pelo intervalo de confiança para o odds ratio (OR) de cada resultado estatístico. Se o intervalo de confiança de 99% para o odds ratio for 10-12, o OR será <= 1 com uma probabilidade extremamente pequena, especialmente se o tamanho da amostra também for grande. Se você encontrar algo assim, provavelmente é um efeito forte, mesmo que tenha saído de um teste de milhões de hipóteses.

Alex I
fonte
1
Enquanto Bonferroni é definitivamente a velha escola, ainda é bastante popular. Relacionado a ele, existe um método chamado correção de Šidák ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Estou chamando a atenção, porque em um sistema de publicidade de segmentação em larga escala em que trabalhei, conseguimos implementar essa abordagem como uma UDF no Hive. No entanto, isso só funciona melhor quando você tem independência entre os testes. Caso contrário, você precisará recorrer à Bonferroni ou a outro método.
Chris Simokat
5

Você não deve considerar o valor p fora de contexto.

Um ponto bastante básico (como ilustrado pelo xkcd ) é que você precisa considerar quantos testes está realmente fazendo. Obviamente, você não deve ficar chocado ao ver p <0,05 para um em cada 20 testes, mesmo que a hipótese nula seja verdadeira todas as vezes.

Um exemplo mais sutil disso ocorre na física de alta energia e é conhecido como efeito de procurar outro lugar . Quanto maior o espaço de parâmetro que você procura por um sinal que possa representar uma nova partícula, maior a probabilidade de você ver um sinal aparente que realmente é apenas devido a flutuações aleatórias.

Tim Goodman
fonte