Por que rejeitamos a hipótese nula no nível 0,05 e não no nível 0,5 (como fazemos na Classificação)

11

O teste de hipóteses é semelhante a um problema de classificação. Digamos, temos 2 rótulos possíveis para uma observação (assunto) - Culpado vs. Não culpado. Seja Não-Culpado a hipótese nula. Se visualizarmos o problema do ponto de vista da Classificação, treinaremos um Classificador que preverá a probabilidade do sujeito pertencer a cada uma das 2 Classes, dados os Dados. Em seguida, escolheríamos a classe com a maior probabilidade. Nesse caso, a probabilidade de 0,5 seria o limiar natural. Podemos variar o limite, caso atribuímos custos diferentes a erros de falso positivo e falso negativo. Mas raramente iríamos tão extremos quanto estabelecer o limite em 0,05, ou seja, atribuir o assunto à Classe "Culpado" somente se a probabilidade for 0,95 ou superior. Mas se eu entendo bem, é isso que estamos fazendo como prática padrão quando vemos o mesmo problema que o teste de hipóteses. Neste último caso, não atribuiremos o rótulo "Não culpado" - equivalente a atribuir o rótulo "Culpado" - apenas se a probabilidade de ser "Não culpado" for inferior a 5%. E talvez isso faça sentido se realmente quisermos evitar condenar pessoas inocentes. Mas por que essa regra deve prevalecer em todos os domínios e em todos os casos?

Decidir qual hipótese adotar é equivalente a definir um estimador da verdade dado os dados. Na Estimativa de máxima verossimilhança, aceitamos a hipótese que é mais provável, dados os dados - não necessariamente, embora seja extremamente provável. Veja o gráfico abaixo:

insira a descrição da imagem aqui

Usando uma abordagem de máxima verossimilhança, favoreceríamos a hipótese alternativa neste exemplo se o valor do preditor fosse superior a 3, por exemplo, 4, embora a probabilidade desse valor ter sido derivada da hipótese nula teria sido maior que 0,05.

E embora o exemplo com o qual eu comecei o post seja talvez emocionalmente carregado, poderíamos pensar em outros casos, por exemplo, uma melhoria técnica. Por que devemos dar essa vantagem ao Status Quo quando os Dados nos dizem que a probabilidade de que a nova solução seja uma melhoria é maior que a probabilidade de que não é?

rf7
fonte
1
Basicamente, é baseado na visão de RA Fisher das estatísticas como uma ferramenta científica (acredite em uma hipótese de cada vez, até que você tenha evidências suficientes contra ela) e em sua experiência de que desvios padrão pareciam fornecer um equilíbrio útil entre rejeitar a hipótese nula com muita frequência e muitas vezes não é o suficiente2
Henry
1
O OP está correto quanto à premissa aqui, não há nada no procedimento clássico do NHST que exija a rejeição de 5%. Este é um fenômeno cultural de valor discutível.
Matthew Drury
1
@ Matthew Drury: "escolher pessoas altas para times de basquete" não é falho como estratégia apenas porque não inclui o quão alto é uma regra precisa. Embora existam muitos outros problemas, como você sabe, deixar o usuário escolher onde traçar a linha é, sem dúvida, um recurso do NHST. Minha aversão ao risco não descartou viagens recentes a Paris ou Londres, mas descartaria visitas a muitos países: outras pessoas traçariam a linha de maneira diferente. Eu concordo que existe um fenômeno cultural [sic] na medida em que grupos diferentes têm convenções diferentes sobre quando rejeitar hipóteses.
27416 Nick Cox
Não tenho certeza do que você está lendo no meu comentário, Nick. Suponho que deveria ter sido mais claro. Eu só gostaria que as pessoas pensassem mais na definição de limites específicos de problemas.
Matthew Drury
Você parece estar dizendo que o NHST é defeituoso porque não implica um nível de rejeição específico. Concordo com você sobre limites específicos de problemas.
Nick Cox

Respostas:

17

Digamos que você acabe no tribunal e não o fez. Você acha justo que você ainda tenha 50% de chance de ser considerado culpado? Há 50% de chance de ser inocente "culpado além da dúvida razoável "? Você acha justo que você tenha 5% de chance de ser considerado culpado, mesmo que não o tenha feito? Se eu estivesse no tribunal, consideraria 5% não suficientemente conservador.

Você está certo que os 5% são arbitrários. Poderíamos também escolher 2% ou 1%, ou se você é nerd % ou %. Existem pessoas dispostas a aceitar 10%, mas 50% nunca serão aceitáveis.eπe


Em resposta à sua edição da pergunta:

Sua idéia seria razoável se todas as hipóteses fossem criadas iguais. No entanto, esse não é o caso. Normalmente, nos preocupamos com a hipótese alternativa, por isso fortalecemos nosso argumento se escolhermos um baixo . Nesse sentido, o exemplo que você escolheu originalmente ilustra bem esse ponto.α

Maarten Buis
fonte
6
+1 "os 5% são arbitrários". Estatístico na Academia: "ensinamos porque é isso que eles usam na indústria". Estatístico na indústria: "usamos porque é isso que aprendemos na universidade". α = 0,05α=0.05α=0.05
knrumsey
8

É como você diz - depende de quão importantes são os erros de falso positivo e falso negativo.

No exemplo que você usa, como Maarten Buis já respondeu, ser condenado se houver 50% de chance de você ser inocente dificilmente é justo.

Ao aplicá-lo à pesquisa, observe o seguinte: Imagine que você deseja saber se um determinado medicamento novo ajuda contra uma determinada doença. Digamos que você encontre uma diferença entre seu grupo de tratamento e seu grupo de controle em favor do tratamento. Ótimo! O remédio deve funcionar, certo? Você pode rejeitar a hipótese nula de que o medicamento não funciona. Seu valor- p é 0,49! Há uma chance maior de que o efeito que você encontrou tenha sido baseado na verdade, e não por acaso!
Agora considere o seguinte: o medicamento tem efeitos adversos desagradáveis. Você só quer tomá-lo se estiver convencido de que funciona. E você é Não, porque ainda existe uma chance de 51% de que a diferença que você encontrou entre os dois grupos foi puramente por acaso.

Eu posso imaginar que existem domínios em que você está satisfeito, por exemplo, 10%. Já vi artigos em que 10% é aceito. Também vi artigos em que eles escolheram 2%. Depende da importância que você acha que está convencido de que a rejeição da hipótese nula será baseada na verdade e não no acaso. Mal consigo imaginar uma situação em que você esteja satisfeito com 50% de chance de que a diferença encontrada tenha sido baseada em pura sorte.

Tami
fonte
5

Outras respostas apontaram que tudo depende de como você valoriza relativamente os diferentes erros possíveis e que, em um contexto científico é potencialmente bastante razoável, um critério ainda mais rigoroso também é potencialmente bastante razoável, mas é improvável que seja razoável. Tudo isso é verdade, mas deixe-me levar isso em uma direção diferente e desafiar a suposição que está por trás da pergunta. .50.05.50


Você faz "[h] teste de hipótese [semelhante a um problema de classificação". A aparente semelhança aqui é apenas superficial; isso não é realmente verdade em um sentido significativo.

Em um problema de classificação binária, existem realmente apenas duas classes; isso pode ser estabelecido absolutamente e a priori. O teste de hipóteses não é assim. Sua figura exibe uma hipótese nula e uma alternativa, pois elas são frequentemente desenhadas para ilustrar uma análise de poder ou a lógica do teste de hipóteses em uma classe Stats 101. A figura implica que há uma hipótese nula e uma hipótese alternativa. Embora seja (geralmente) verdade que existe apenas um nulo, a alternativa não é fixa para ser apenas um valor de ponto único da (digamos) diferença média. Ao planejar um estudo, os pesquisadores geralmente selecionam um valor mínimo que desejam detectar. Digamos que em algum estudo específico seja uma mudança média de.67.67SDs. Então eles projetam e capacitam seus estudos de acordo. Agora imagine que o resultado seja significativo, mas não parece ser um valor provável. Bem, eles não vão embora! Os pesquisadores, no entanto, concluíram que o tratamento faz a diferença, mas ajustam sua crença sobre a magnitude do efeito de acordo com a interpretação dos resultados. Se houver vários estudos, uma metanálise ajudará a refinar o efeito real à medida que os dados se acumulam. Em outras palavras, a alternativa oferecida durante o planejamento do estudo (e que é desenhada na sua figura) não é realmente uma alternativa singular, de modo que os pesquisadores devem escolher entre ela e o nulo como suas únicas opções. .67

Vamos fazer isso de uma maneira diferente. Você poderia dizer que é bem simples: ou a hipótese nula é verdadeira ou falsa, portanto, existem realmente apenas duas possibilidades. No entanto, o nulo é tipicamente um valor de ponto (ou seja, ) e o nulo sendo falso significa simplesmente que qualquer valor que não seja exatamente é o valor verdadeiro. Se lembrarmos que um ponto não tem largura, essencialmente da linha numérica corresponde à alternativa verdadeira. Assim, a menos que o resultado observado seja (ou seja, de zero a infinitas casas decimais), seu resultado estará mais próximo de algum valor diferente de do que de (ou seja,0 100 % 0. ˉ 0 0 0 p < 0,500100%0.0¯00p<.5) Como resultado, você sempre terminaria concluindo que a hipótese nula é falsa. Para tornar isso explícito, a premissa equivocada em sua pergunta é que existe uma única linha azul significativa (como representada em sua figura) que pode ser usada como você sugere.

No entanto, nem sempre é o caso acima. Às vezes ocorre que existem duas teorias fazendo previsões diferentes sobre um fenômeno em que as teorias são suficientemente matematizadas para produzir estimativas pontuais precisas e prováveis ​​distribuições de amostras. Então, um experimento crítico pode ser planejado para diferenciar entre eles. Nesse caso, nenhuma teoria precisa ser tomada como nula e a razão de verossimilhança pode ser tomada como o peso da evidência que favorece uma ou outra teoria. Esse uso seria análogo a tomar como seu alfa. Não há razão teórica para que esse cenário não possa ser o mais comum na ciência, apenas acontece que é muito raro haver duas dessas teorias na maioria dos campos no momento. .50

Repor a Monica
fonte
3

Para adicionar às boas respostas anteriores: Sim, 5% é arbitrário, mas, independentemente do limite específico escolhido, ele deve ser razoavelmente pequeno; caso contrário, o teste de hipóteses faz pouco sentido.

Você está procurando um efeito e deseja garantir que seus resultados não sejam puramente devidos ao acaso. Nesse sentido, você define um nível de significância que diz basicamente "Se de fato não houvesse efeito (hipótese nula é verdadeira), essa seria a probabilidade de ainda obter esses resultados (ou mais extremos) por puro acaso" . Definir isso muito alto resultará em muitos falsos positivos e prejudicará sua capacidade de obter uma resposta significativa à sua pergunta de pesquisa.

Como sempre, há uma troca envolvida, então a comunidade de pesquisa apresentou essa diretriz de 5%. Mas é diferente em diferentes campos. Na física de partículas, é mais como 0,00001% ou algo assim.

khaozavr
fonte
0

A classificação e o teste de hipóteses são diferentes e foram utilizados de maneira diferente . Na maioria dos casos, as pessoas usam

  • "Classificação" "para executar a tarefa de" classificar algo de acordo com qualidades ou características compartilhadas ".
  • E use o "teste de hipóteses" para verificar algumas "descobertas significativas".

Observe que, no teste de hipóteses, a "hipótese nula" é "senso comum", mas se podemos rejeitar hipóteses nulas, porém, temos uma pausa.

É por isso que temos critérios mais rigorosos no teste de hipóteses. Pense no exemplo do desenvolvimento de novos arrastões, queremos ter muito cuidado em dizer que é significativo e eficaz.

Haitao Du
fonte