Ultimamente, tenho lido muito sobre as diferenças entre o método de teste de hipóteses de Fisher e a escola de pensamento Neyman-Pearson.
Minha pergunta é, ignorando objeções filosóficas por um momento; quando devemos usar a abordagem de Fisher da modelagem estatística e quando devemos usar o método de Neyman-Pearson de níveis de significância etc. Existe uma maneira prática de decidir qual ponto de vista apoiar em qualquer problema prático?
Respostas:
Fisher pensou que o valor-p poderia ser interpretado como uma medida contínua de evidência contra a hipótese nula . Não existe um valor fixo específico no qual os resultados se tornem "significativos". A maneira como costumo transmitir isso às pessoas é salientar que, para todos os efeitos, p = 0,049 ep = 0,051 constituem uma quantidade idêntica de evidência contra a hipótese nula (cf. resposta de @ Henrik aqui ) .
Por outro lado, Neyman e Pearson pensaram que você poderia usar o valor-p como parte de um processo formal de tomada de decisão . No final de sua investigação, você deve rejeitar a hipótese nula ou deixar de rejeitar a hipótese nula. Além disso, a hipótese nula pode ser verdadeira ou não. Portanto, existem quatro possibilidades teóricas (embora em qualquer situação, haja apenas duas): você pode tomar uma decisão correta (deixar de rejeitar uma hipótese verdadeira - ou rejeitar uma hipótese falsa - nula) ou fazer um tipo Erro I ou tipo II (rejeitando um nulo verdadeiro ou falhando em rejeitar uma hipótese nula falsa, respectivamente). (Observe que o valor p não é o mesmo que a taxa de erro do tipo I, que discuto aquiα p < α
As abordagens de Fisherian e Neyman-Pearson não são as mesmas . O argumento central da estrutura de Neyman-Pearson é que, no final do seu estudo, você precisa tomar uma decisão e se afastar. Alegadamente, um pesquisador abordou Fisher com resultados "não significativos", perguntando o que ele deveria fazer e Fisher disse: "vá buscar mais dados".
Pessoalmente, acho a lógica elegante da abordagem Neyman-Pearson muito atraente. Mas não acho que seja sempre apropriado. Na minha opinião, pelo menos duas condições devem ser atendidas antes que a estrutura de Neyman-Pearson seja considerada:
Quando essas condições não são atendidas, o valor-p ainda pode ser interpretado de acordo com as idéias de Fisher. Além disso, parece-me provável que na maioria das vezes essas condições não sejam atendidas. Aqui estão alguns exemplos fáceis que vêm à mente, onde os testes são executados, mas as condições acima não são atendidas:
fonte
A praticidade está nos olhos de quem vê, mas;
O teste de significância de Fisher pode ser interpretado como uma maneira de decidir se os dados sugerem ou não algum `sinal 'interessante. Rejeitamos a hipótese nula (que pode ser um erro do tipo I) ou não dizemos nada. Por exemplo, em muitas aplicações modernas de ics, essa interpretação se encaixa; não queremos cometer muitos erros do tipo I, queremos extrair os sinais mais emocionantes, embora possamos perder alguns.
A hipótese de Neyman-Pearson faz sentido quando existem duas alternativas desunidas (por exemplo, o Bóson de Higgs existe ou não) entre as quais decidimos. Além do risco de um erro do tipo I, também podemos cometer um erro do tipo II - quando há um sinal real, mas dizemos que não existe, tomando uma decisão 'nula'. O argumento de NP era que, sem cometer muitas taxas de erro do tipo I, queremos minimizar o risco de erros do tipo II.
Freqüentemente, nenhum dos sistemas parecerá perfeito - por exemplo, você pode apenas querer uma estimativa pontual e a medida correspondente de incerteza. Além disso, pode não interessar qual versão você usa, porque informa o valor de p e deixa a interpretação do teste para o leitor. Mas, para escolher entre as abordagens acima, identifique se (ou não) erros do Tipo II são relevantes para o seu aplicativo.
fonte
O ponto principal é que você não pode ignorar as diferenças filosóficas. Um procedimento matemático em estatística não se destaca apenas como algo que você aplica sem algumas hipóteses, suposições, teoria ... filosofia.
Dito isto, se você insistir em seguir filosofias freqüentistas, pode haver alguns tipos muito específicos de problemas em que Neyman-Pearson realmente precisa ser considerado. Todos eles se enquadravam na classe de testes repetidos, como controle de qualidade ou ressonância magnética. Definir um alfa específico antecipadamente e considerar toda a estrutura de Tipo I, Tipo II e potência torna-se mais importante nesse cenário.
fonte
Meu entendimento é: valor-p é nos dizer em que acreditar (verificar uma teoria com dados suficientes) enquanto a abordagem de Neyman-Pearson é nos dizer o que fazer (tomar as melhores decisões possíveis, mesmo com dados limitados). Portanto, parece-me que o valor p (pequeno) é mais rigoroso, enquanto a abordagem de Neyman-Pearson é mais pragmática; É provavelmente por isso que o valor-p é usado mais para responder a perguntas científicas, enquanto Neyman e Pearson são usados mais para tomar decisões estatísticas / práticas.
fonte