O que Fisher quer dizer com esta citação?

14

Eu continuo vendo essa famosa citação em todos os lugares, mas não consigo entender a parte enfatizada todas as vezes.

Um homem que 'rejeita' provisoriamente uma hipótese, como uma questão de prática habitual, quando a significância está no nível de 1% ou mais, certamente estará enganado em não mais de 1% de tais decisões. Pois quando a hipótese estiver correta, ele estará errado em apenas 1% desses casos, e quando estiver incorreto, ele nunca estará errado em rejeitar. [...] No entanto, o cálculo é absurdamente acadêmico, pois, de fato, nenhum cientista tem um nível fixo de significância, no qual, ano a ano, e em todas as circunstâncias, ele rejeita hipóteses; ele prefere dedicar sua mente a cada caso particular à luz de suas evidências e idéias.Não se deve esquecer que os casos escolhidos para a aplicação de um teste são manifestamente um conjunto altamente selecionado e que as condições de seleção não podem ser especificadas nem para um único trabalhador; nem que, no argumento usado, seria claramente ilegítimo escolher o nível real de significância indicado por um teste em particular, como se fosse seu hábito ao longo da vida usar exatamente esse nível.

(Métodos estatísticos e inferência científica, 1956, p. 42-45)

Mais especificamente, eu não entendo

  1. Por que os casos escolhidos para a aplicação de um teste são "altamente selecionados"? Diga que você se pergunta se a altura média das pessoas dentro de uma área é inferior a 165 cm e decide realizar um teste. O procedimento padrão, tanto quanto eu sei, é coletar amostras aleatórias da área e medir sua altura. Como isso pode ser altamente selecionado?
  2. Suponha que os casos sejam altamente selecionados, mas como isso está relacionado à escolha do nível de significância? Considere novamente o exemplo acima, se o seu método de amostragem (suponho que Fisher se refere como condições de seleção ) for distorcido e de alguma forma favorecer as pessoas altas, toda a pesquisa será arruinada e a determinação subjetiva do nível de significância não poderá salvá-lo.
  3. p
nalzok
fonte

Respostas:

15

Aqui está minha paráfrase do que Fisher diz em sua citação em negrito. Não se deve esquecer que muito se escolhe a hipótese a ser testada, tanto que, mesmo para a decisão de uma única pessoa, você não pode especificar tudo. Também não deve ser esquecido que, pelas razões expostas acima, você não pode decidir sobre o nível de significância de um estudo em particular sempre da mesma maneira, como um hábito de toda a vida.

  1. Uma hipótese científica é selecionada como vale a pena testar contra muitas outras hipóteses concorrentes, devido aos vieses do pesquisador e seu estado atual de conhecimento. As hipóteses são "altamente selecionadas", não as amostras; as hipóteses são os casos em que aplicamos testes.

  2. O processo de seleção das hipóteses afeta nosso nível de significância. Se tivermos muita certeza de uma hipótese, isso deve tornar o nível de significância menos rigoroso para satisfazer a nós mesmos. Se não tivermos certeza, haverá maior ônus da prova. Outros fatores também entram em jogo, como o erro do tipo I ser pior do que o tipo II em ensaios com drogas.

  3. Eu acho que quando ele diz "indicado por" ele simplesmente significa "escolhido para". Sim, é um valor predefinido em que rejeitamos a hipótese se o valor p for mais extremo.

Drew N
fonte
10

Os casos a que Fisher se refere não são observações, mas testes. Ou seja, selecionamos hipóteses para testar. Não testamos apenas hipóteses aleatórias - as baseamos na observação, na literatura, nas teorias científicas e assim por diante.

Se você fez teste hipóteses aleatórias, então o número de vezes que você está enganado (na primeira frase de sua cotação) seria de 1% (ou qualquer outro valor é escolhido). Por exemplo, se testamos hipóteses como

  • A paridade do número de segurança social de uma pessoa está relacionada ao seu QI

  • Pessoas com cabelos loiros jogam Frisbees melhor do que pessoas com cabelos escuros

  • O tempo para obter uma resposta no Cross Validated está relacionado ao número de sílabas em seu primeiro nome.

E testando um monte deles em 1%, rejeitaríamos o nulo cerca de 1% das vezes, e o faríamos incorretamente. (A não ser, é claro, que eu entenda algo com o absurdo acima).

Uma vez vi um artigo sobre a cor do cabelo e o lançamento do Frisbee - e encontrou uma diferença! Então, eu chamo esse tipo de coisa de "pesquisa de frisbee".

Mas a parte que eu mais gosto da citação é a seguinte:

pois, de fato, nenhum trabalhador científico tem um nível fixo de significância no qual, ano após ano, e em todas as circunstâncias, ele rejeita hipóteses; ele prefere dedicar sua mente a cada caso particular à luz de suas evidências e idéias.

Ele deve estar girando em seu túmulo.

Peter Flom - Restabelece Monica
fonte
4
Esta é uma boa resposta, mas hesito em ver a "pesquisa de Frisbee" como coisas ruins. Desde que as metodologias sejam empregadas adequadamente (levando em consideração o tamanho do efeito, etc.), consideraria o resultado plausível. Quero dizer, acredita-se que a cor do cabelo não tem nada a ver com o lançamento do Frisbee, mas foi aceito que a Terra está no centro do universo até centenas de anos atrás! Podemos criticar as pessoas por fazerem coisas erradas, mas não devemos culpar ninguém por fazer perguntas. Dito isto, concordo que algumas hipóteses são menos úteis que outras, mas, ainda assim, podem estar corretas .
Nalzok 9/08/19
E eles também podem ser erros do tipo I.
Peter Flom - Restabelece Monica
1
Veja também: xkcd.com/882
jkdev
2

Tentando ver o plano de fundo da citação, cheguei a uma versão do livro (não sei qual é a versão) que possui uma citação ligeiramente diferente

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

As tentativas que foram feitas para explicar a convincência dos testes de significância na pesquisa científica, por referência a frequências hipotéticas de possíveis afirmações, baseadas nelas, certas ou erradas, parecem, portanto, perder a natureza essencial de tais testes. Um homem que "rejeita" provisoriamente uma hipótese, como uma questão de prática habitual, quando a significância está no nível de 1% ou mais, certamente se enganará em não mais de 1% de tais decisões. Pois quando a hipótese estiver correta, ele estará errado em apenas 1% desses casos, e quando estiver incorreto, ele nunca estará errado em rejeitar. Esta declaração de desigualdade pode, portanto, ser feita. No entanto, o cálculo é absurdamente acadêmico, pois, na verdade, nenhum trabalhador científico tem um nível fixo de significância no qual, ano a ano, e em todas as circunstâncias, ele rejeita hipóteses; ele prefere dedicar sua mente a cada caso particular à luz de suas evidências e idéias. Além disso, o cálculo baseia-se apenas em uma hipótese, que, à luz da evidência, muitas vezes não se acredita verdadeira, de modo que a probabilidade real de decisão errônea, supondo que tal frase tenha algum significado, possa ser muito menor que a frequência que especifica o nível de significância. Para um homem prático, também, que rejeita uma hipótese, é claro que é uma questão de indiferença com que probabilidade ele pode ser levado a aceitar falsamente a hipótese, pois, no caso dele, ele não a está aceitando. muitas vezes não se acredita que seja verdade, de modo que a probabilidade real de decisão errônea, supondo que essa frase tenha algum significado, pode ser muito menor que a frequência que especifica o nível de significância. Para um homem prático, também, que rejeita uma hipótese, é claro que é uma questão de indiferença com que probabilidade ele pode ser levado a aceitar falsamente a hipótese, pois, no caso dele, ele não a está aceitando. muitas vezes não se acredita que seja verdade, de modo que a probabilidade real de decisão errônea, supondo que essa frase tenha algum significado, pode ser muito menor que a frequência que especifica o nível de significância. Para um homem prático, também, que rejeita uma hipótese, é claro que é uma questão de indiferença com que probabilidade ele pode ser levado a aceitar falsamente a hipótese, pois, no caso dele, ele não a está aceitando.

Isso me parece uma crítica ao usar a expressão matemática de possibilidades de rejeição, erros do tipo I, como argumento rigoroso. Essas expressões geralmente não são uma boa expressão para o que é relevante e nem são rigorosas.

  1. Por que os casos escolhidos para a aplicação de um teste são "altamente selecionados"?

    Isso parece estar relacionado à frase

    Além disso, o cálculo baseia-se apenas em uma hipótese que, à luz da evidência, muitas vezes não se acredita que seja verdadeira.

    Não somos indiferentes à hipótese que está sendo testada, e muitas vezes não se acredita que uma hipótese que está sendo testada seja verdadeira.

  2. como isso está relacionado à escolha do nível de significância?

    Isso se refere a

    para que a probabilidade real de decisão errônea, supondo que tal frase tenha algum significado, seja muito menor que a frequência que especifica o nível de significância

    O valor p é apenas a frequência de cometer um erro quando a hipótese nula é verdadeira. Mas a frequência real de cometer um erro será diferente (menor).

  3. o que é "o nível real de significância indicado por um estudo específico" referente a

    Acredito que esta parte se refira a algum tipo de invasão de valor p. Alterando o nível de significância, alfa, depois que as observações ocorrerem para corresponder ao valor p observado, e finja que esse foi o valor de corte desde o início.

Sextus Empiricus
fonte