É possível alterar uma hipótese para corresponder aos dados observados (também conhecidos como expedição de pesca) e evitar um aumento nos erros do tipo I?

32

É sabido que os pesquisadores devem gastar tempo observando e explorando dados e pesquisas existentes antes de formar uma hipótese e, em seguida, coletar dados para testar essa hipótese (referindo-se ao teste de significância de hipótese nula). Muitos livros estatísticos básicos alertam que as hipóteses devem ser formadas a priori e não podem ser alteradas após a coleta de dados, caso contrário a metodologia se tornará inválida.

Entendo que uma das razões pelas quais alterar uma hipótese para ajustar os dados observados é problemática é por causa da maior chance de cometer um erro do tipo I devido a dados espúrios, mas minha pergunta é: essa é a única razão ou existem outros problemas fundamentais em continuar em uma expedição de pesca?

Como uma questão de bônus, existem maneiras de seguir em expedições de pesca sem se expor às possíveis armadilhas? Por exemplo, se você tiver dados suficientes, poderá gerar hipóteses a partir da metade dos dados e usar a outra metade para testá-las?

atualizar

Aprecio o interesse em minha pergunta, mas as respostas e comentários são principalmente direcionados para o que pensei ter estabelecido como informação de base. Estou interessado em saber se existem outras razões pelas quais é ruim, além da possibilidade mais alta de resultados espúrios, e se existem maneiras, como dividir os dados primeiro, de alterar uma hipótese post hoc, mas evitar o aumento de erros do tipo I.

Atualizei o título para refletir a esperança de minha pergunta.

Obrigado e desculpe pela confusão!

post-hoc
fonte
1
Tomando outro ponto de vista sobre o que já foi dito: A essência do método científico é fazer hipóteses e , em seguida, tentar falsificá-las para que se tornem teorias (se a falsificação falha). Ir a uma expedição de pesca é uma maneira válida de encontrar hipóteses que valem a pena ser falsificadas em um experimento posterior, mas você nunca pode fazer e tentar falsificar uma hipótese de uma só vez. Em particular, se você está disposto a ajustar sua hipótese, não está mais tentando falsificá-la. Em vez disso, quando você se ajusta, está falsificando sua hipótese não ajustada e forma uma nova hipótese.
Wrzlprmft
@jona, esse é um ótimo artigo. Já li artigos de Ioannidis e Schooler, mas Simmons e cols. Ilustram maravilhosamente o problema.
post-hoc
1
Gostaria de saber se você também encontrará este documento relevante para sua pergunta: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Não é exatamente sobre o mesmo assunto, mas trata de um aspecto dele.
A11msp
1
Os dados podem fazer com que você altere sua hipótese ... mas, nesse caso, você precisa começar a coletar novos dados do zero para confirmar a nova hipótese.
Kevlam

Respostas:

54

Certamente você pode fazer expedições de pesca, desde que admita que seja uma expedição de pesca e trate-a como tal. Um nome melhor para isso é "análise exploratória de dados".

Uma analogia melhor pode estar atirando em um alvo:

Você pode atirar em um alvo e comemorar se acertar o alvo.

Você pode atirar sem um alvo para testar as propriedades da sua arma.

Mas é trapaça atirar em uma parede e depois pintar um alvo em torno do buraco de bala.

Uma maneira de evitar alguns dos problemas é fazer a exploração em um conjunto de dados de treinamento e testá-lo em um conjunto de dados de "teste" separado.

Peter Flom - Restabelece Monica
fonte
13
É difícil melhorar a resposta de Peter. O infeliz problema com grande parte da dragagem de dados é a falta de admissão pelos autores de que as hipóteses não foram totalmente pré-especificadas, ou seja, não usando o termo 'exploratório'. Muitos pesquisadores estão pesquisando dados para obter um artigo publicável e não seguindo nenhuma tentativa de validação (o que geralmente os decepcionaria).
Frank Harrell
2
Levando o comentário de Frank Harrell um passo adiante: é legítimo explorar alguns dados e publicar uma descoberta intrigante ... como uma descoberta exploradora intrigante, sujeita a reprodução / validação. A desvantagem é: se alguém confirmar suas descobertas, pode muito bem ter a glória e, se outras pessoas não confirmarem seus resultados, você foi enganado por uma correlação espúria. Ruim se você tem um grande ego. Sem mencionar que você precisaria disponibilizar seus dados e procedimentos publicamente, o que muitos profissionais em muitos campos não farão. E você deve acompanhar novos dados em vez de seguir em frente.
Wayne
11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD
3
@ post-hoc bem, não deve levantar sobrancelhas, mas pode. Depende de cujos olhos estão sob as sobrancelhas!
Peter Flom - Restabelece Monica
2
Falácia do
atirador de elite do
25

O problema das expedições de pesca é o seguinte: se você testar hipóteses suficientes, uma delas será confirmada com um baixo valor de p. Deixe-me dar um exemplo concreto.

Imagine que você está fazendo um estudo epidemiológico. Você encontrou 1000 pacientes que sofrem de uma condição rara. Você quer saber o que eles têm em comum. Então você começa a testar - deseja ver se uma característica específica está super-representada nesta amostra. Inicialmente, você testa sexo, raça, certos antecedentes familiares pertinentes (o pai morreu de doença cardíaca antes dos 50 anos de idade ...) mas, eventualmente, como está tendo problemas para encontrar algo que "grude", você começa a adicionar todos os tipos de outros fatores que apenas pode estar relacionado à doença:

  • é vegetariano
  • viajou para o Canadá
  • faculdade terminada
  • é casado
  • tem filhos
  • tem gatos
  • tem cachorros
  • bebe pelo menos 5 copos de vinho tinto por semana
    ...

Agora aqui está a coisa. Se eu selecionar hipóteses "aleatórias" suficientes, torna-se provável que pelo menos uma delas resulte em um valor p menor que 0,05 - porque a própria essência do valor p é "a probabilidade de estar errado em rejeitar a hipótese nula quando houver". não tem efeito ". Em outras palavras, em média, para cada 20 hipóteses falsas que você testa, uma delas fornecerá um p <0,05 .

Isso está muito bem resumido no desenho animado XKCD http://xkcd.com/882/ :

insira a descrição da imagem aqui

A tragédia é que, mesmo que um autor individual não realize 20 testes de hipóteses diferentes em uma amostra para procurar significado, pode haver outros 19 autores fazendo a mesma coisa; e quem "encontra" uma correlação agora tem um artigo interessante para escrever e que provavelmente será aceito para publicação ...

Isso leva a uma infeliz tendência a descobertas irreprodutíveis. A melhor maneira de se proteger contra isso como autor individual é elevar a fasquia. Em vez de testar o fator individual, pergunte a si mesmo "se eu testar hipóteses de N, qual é a probabilidade de encontrar pelo menos um falso positivo". Quando você está realmente testando "hipóteses de pesca", pode pensar em fazer uma correção de Bonferroni para se proteger contra isso - mas as pessoas freqüentemente não o fazem.

Houve alguns artigos interessantes do Dr. Ioannides - publicados no Atlantic Monthly especificamente sobre esse assunto.

Veja também esta pergunta anterior com várias respostas perspicazes.

atualizar para responder melhor a todos os aspectos da sua pergunta:

Se você tem medo de estar "pescando", mas realmente não sabe qual hipótese formular, definitivamente pode dividir seus dados nas seções "exploração", "replicação" e "confirmação". Em princípio, isso deve limitar sua exposição aos riscos descritos anteriormente: se você tem um valor de p 0,05 nos dados de exploração e obtém um valor semelhante nos dados de replicação e confirmação, o risco de estar errado cai. Um bom exemplo de "fazer o certo" foi mostrado no British Medical Journal (uma publicação muito respeitada com um fator de impacto de 17 anos ou mais)

Exploração e confirmação de fatores associados à gravidez sem complicações em mulheres nulíparas: estudo de coorte prospectivo, Chappell et al.

Aqui está o parágrafo relevante:

Dividimos o conjunto de dados de 5628 mulheres em três partes: um conjunto de dados de exploração de dois terços das mulheres da Austrália e Nova Zelândia, escolhidas aleatoriamente (n = 2129); um conjunto de dados de replicação local do terço restante das mulheres da Austrália e Nova Zelândia (n = 1067); e um conjunto de dados de confirmação externo geograficamente distinto de 2432 mulheres européias do Reino Unido e da República da Irlanda.

Retrocedendo um pouco na literatura, há um bom artigo de Altman et al. Intitulado "Pesquisa de prognóstico e prognóstico: validação de um modelo prognóstico", que é muito mais aprofundado e sugere maneiras de garantir que você não caia em esse erro. Os "pontos principais" do artigo:

Modelos não validados não devem ser usados ​​na prática clínica Ao validar um modelo prognóstico, a calibração e a discriminação devem ser avaliadas A validação deve ser feita com dados diferentes daqueles usados ​​para desenvolver o modelo, preferencialmente de pacientes em outros centros Os modelos podem não ter um bom desempenho na prática devido a deficiências nos métodos de desenvolvimento ou porque a nova amostra é muito diferente da original

Observe em particular a sugestão de que a validação seja feita (parafraseando) com dados de outras fontes - ou seja, não é suficiente dividir seus dados arbitrariamente em subconjuntos, mas você deve fazer o possível para provar que "aprender" no set de um conjunto experimentos podem ser aplicados aos dados de um conjunto diferente de experimentos. Essa é uma barra mais alta, mas reduz ainda mais o risco de que um viés sistemático na sua configuração crie "resultados" que não podem ser verificados independentemente.

É um assunto muito importante - obrigado por fazer a pergunta!

Floris
fonte
7
Isso me vem
Jens
2
@ens - essa é uma explicação muito mais eloquente do que a que dei ... Obrigado por esse link. Como de costume - fazer passar o mouse sobre o desenho para um pouco zinger.
Floris 27/05
Ioannides e o artigo da Lehrer foram o caminho que me trouxe até aqui. Seu exemplo é semelhante ao exemplo de Simmons et al mencionado por @jona. É uma maneira muito boa de explicar a probabilidade crescente de erros do tipo I, mas existem outras razões pelas quais isso é ruim?
post-hoc
1
O problema com a dragagem de dados em geral é que você corre o risco de confundir "correlação" com "causalidade". Ao apresentar uma hipótese razoável primeiro e depois confirmar que isso ajuda a explicar as observações, você limita o risco de confundir as duas. O "big data" costuma ser o contrário - o seu modus operandi é "se eu analisar dados suficientes, verei padrões que se mantiveram verdadeiros no passado e que continuarão se mantendo no futuro". Às vezes funciona, às vezes não. As estatísticas nunca devem se tornar um substituto para o pensamento e a compreensão - apenas uma confirmação .
Floris 27/05
6
Não acho que a questão principal seja correlação versus causalidade. É fácil fazer análises correlacionais ruins apenas para descobrir que as associações não se replicam.
Frank Harrell 27/05
5

A pergunta pergunta se existem outros problemas além da inflação de erro tipo I que acompanham as expedições de pesca.

0 0

- Reinstate Monica
fonte