O pesquisador 1 executa 1000 regressões, o pesquisador 2 executa apenas 1, ambos obtêm os mesmos resultados - devem fazer inferências diferentes?

12

Imagine que um pesquisador esteja explorando um conjunto de dados e execute 1000 regressões diferentes e encontre uma relação interessante entre eles.

Agora imagine outro pesquisador com os mesmos dados executando apenas 1 regressão, e é o mesmo que o outro pesquisador fez 1000 regressões para encontrar. O pesquisador 2 não conhece o pesquisador 1.

O pesquisador 1 deve fazer inferências diferentes do pesquisador 2? Por quê? Por exemplo, o pesquisador 1 deve executar a correção de múltiplas comparações, mas o pesquisador 2 não deve?

Se o pesquisador 2 mostrar sua regressão única primeiro, que inferências você faria? Se depois que o pesquisador 1 lhe mostrou os resultados, você deveria mudar sua inferência? Se sim, por que isso importa?

PS 1 : Se falar sobre pesquisadores hipotéticos torna o problema abstrato, pense sobre o seguinte: imagine que você fez apenas uma regressão para o seu trabalho, usando o melhor método disponível. Em seguida, outro pesquisador explorou 1000 regressões diferentes com os mesmos dados, até encontrar exatamente a mesma regressão que você executou . Vocês dois deveriam fazer inferências diferentes? A evidência é a mesma para os dois casos ou não? Você deveria mudar sua inferência se conhecesse os resultados do outro pesquisador? Como o público deve avaliar as evidências dos dois estudos?

PS 2: tente ser específico e, se possível, fornecer uma justificativa matemática / teórica!

statslearner
fonte
1
Para ser uma comparação válida, você precisa especificar todas as hipóteses nulas e alternativas. O pesquisador 2 pode apenas testar a hipótese 1, enquanto o pesquisador 1 provavelmente deseja controlar a probabilidade de não cometer 1 erro tipo 1 em 1000. Se essa é a inferência simultânea que você deseja fazer, é necessário fazer o ajuste do valor-p. O pesquisador 2 tem um teste e não precisa de ajustes. Para o pesquisador 1, você está ajustando modelos diferentes para os mesmos dados ou um modelo adequado para cada um dos 1000 conjuntos de dados?
Michael R. Chernick
1
@MichaelChernick há apenas um conjunto de dados. O pesquisador 1 ajusta 1.000 modelos para o mesmo conjunto de dados até encontrar o que mais gosta. Pesquisador 2 equipado apenas 1. Ambos os pesquisadores usam os mesmos dados. Então, você diria que esses dois pesquisadores teriam que concluir coisas diferentes com exatamente o mesmo conjunto de dados? O pesquisador 2 deve ter toda a confiança em sua análise, enquanto o pesquisador 1 deve aumentar seus intervalos de valor-p / confiança devido a comparações múltiplas?
statslearner
Se você seguiu meu argumento, eles o fazem no sentido de que apenas o pesquisador 2 está testando uma única hipótese, enquanto o pesquisador 1 está testando 1000 hipóteses e precisa controlar todas as hipóteses que ele testou. Envolve dois problemas diferentes. O que ainda é vago é o que você quer dizer com "encontrar apenas um relacionamento interessante". Talvez você pense que colocou uma situação paradoxal. Eu não acho que você tem.
Michael R. Chernick
1
@MichaelChernick, como não é um paradoxo para os mesmos dados exatos com o mesmo modelo levar a duas conclusões diferentes? Se você lesse os dois trabalhos separados, o que concluiria?
statslearner
1
@MichaelChernick eu fiz, e acho preocupante que você ache isso correto - exatamente os mesmos dados, com exatamente o mesmo modelo, levando a duas conclusões diferentes. Veja meus comentários sobre a resposta.
statslearner

Respostas:

3

Aqui está minha inclinação "bayesiana" em sua pergunta. Acho que você descreveu uma situação em que duas pessoas com informações prévias diferentes deveriam obter uma resposta / conclusão diferente quando recebiam o mesmo conjunto de dados. Um exemplo mais brusco / extremo é supor que temos um "pesquisador 1b" que adivinha os parâmetros e conclusões do modelo de regressão a partir de qualquer hipótese. A execução de regressões não é conceitualmente muito distante da adivinhação.1000

O que eu acho que está acontecendo ... o que aprendemos sobre as informações anteriores dos pesquisadores da pergunta acima? - o pesquisador 1 provavelmente tem um plano anterior para os modelos - o pesquisador 2 tem um forte antes do modelo de interesseP(M1|I2)=1(suponha queM1seja o modelo em que ambos se encaixam)P(Mk|I1)=11000P(M1|I2)=1M1

M1P(M1|DI)>>P(M1|I)9991M1100010000pvalue<108 para todos os modelos). Então não há problema em concluir um efeito significativamente positivo, mesmo que muitos modelos tenham sido adequados.

100102,000,000

Não há nada de fundamentalmente errado com duas pessoas que começam com informações diferentes e continuam a ter conclusões diferentes depois de ver os mesmos dados. No entanto ... ver os mesmos dados os aproximará, desde que o "espaço do modelo" se sobreponha e os dados suportem essa "região sobreposta".

probabilityislogic
fonte
Portanto, a parte fundamental de sua afirmação é que eles devem fazer inferência diferente porque têm antecedentes diferentes, e não porque quanto "exploraram os dados", correto?
statslearner
A propósito, como você avaliaria as evidências? Você se importaria com quantos modelos o pesquisador 1 cabia? Se sim, por quê?
statslearner
Eu não me importaria necessariamente com o número de modelos adequados, mas se o modelo que está sendo usado é ou não conhecido com certo grau de certeza. Como mencionei brevemente, gostaria de saber se existem alternativas razoáveis. Por exemplo, se o pesquisador 1 tomou uma decisão "linear" sobre uma variável que foi descartada / adicionada, eu gostaria de ver isso mencionado.
probabilityislogic
1
Por que você gostaria de ver isso mencionado, isso mudaria o seu anterior de alguma forma? Você está usando ele como proxy para você antes? Não está claro para mim o mapeamento que você está fazendo. Por que os motivos de um pesquisador em particular são importantes para sua inferência, uma vez que isso não afeta o processo de geração de dados?
statslearner
1
Estamos considerando que o conjunto de dados aqui é externo ao pesquisador, ele não o coletou e os dois pesquisadores usam os mesmos dados. Parece que os resultados razões não podem ser replicadas em psicologia é porque eles só usam limiares de significância soltas como o padrão de evidência para julgar várias hipóteses louco qualquer pessoa / cientista razoável iria encontrá-los um ridículo priori. Tomemos o nosso caso aqui, se a hipótese testada em nosso exemplo for algo ridículo que tal poder impõe, importaria se executássemos 1 ou 1000 regressões?
statslearner
7

A interpretação estatística é muito menos clara do que o que você está pedindo, o tratamento matemático.

A matemática trata de problemas claramente definidos. Por exemplo, rolar um dado perfeito ou desenhar bolas de uma urna.

A estatística é aplicada à matemática, onde a matemática fornece uma orientação, mas não é a solução (exata).

Nesse caso, é óbvio que as circunstâncias desempenham um papel importante. Se fizermos uma regressão e depois calcularmos (matemática) algum valor de p para expressar a força, qual é a interpretação (estatística) e o valor do valor de p?

  • No caso das 1000 regressões realizadas pelo pesquisador 1, o resultado é muito mais fraco, pois esse tipo de situação ocorre quando na verdade não temos uma pista e estamos apenas explorando os dados. O valor p é apenas uma indicação de que pode haver haver algo.

    Portanto, obviamente, o valor de p vale menos na regressão executada pelo pesquisador 1. E se o pesquisador 1 ou alguém que utiliza os resultados do pesquisador 1 gostaria de fazer algo com a regressão, então o valor de p precisa ser corrigido. (e se você achou que a diferença entre o pesquisador 1 e o pesquisador 2 não era suficiente, pense nas inúmeras maneiras que o pesquisador 1 pode corrigir o valor de p para várias comparações)

  • No caso da regressão única realizada pelo pesquisador 2, o resultado é uma evidência muito mais forte. Mas isso ocorre porque a regressão não se sustenta por si mesma. Temos que incluir as razões pelas quais o pesquisador 2 fez apenas uma única regressão. Isso pode ser porque ele tinha boas razões (adicionais) para já acreditar que a regressão única é um bom modelo para os dados.

  • A configuração das regressões executadas pelos pesquisadores 1 e 2 é muito diferente, e não é sempre que você encontra os dois ao mesmo tempo para o mesmo problema. Se for esse o caso, então

    • pesquisador 2 teve muita sorte

      Isso não é tão incomum, e devemos corrigi-lo melhor ao interpretar a literatura, assim como melhorar a publicação do quadro total da pesquisa. Se houver mil pesquisadores como o pesquisador 2, e apenas um deles publicar um sucesso, porque, como não vimos as falhas dos outros 999 pesquisadores, poderíamos acreditar erroneamente que não tivemos um caso como o pesquisador 1

    • o pesquisador 1 não era tão esperto e fez uma busca incrivelmente supérflua por alguma regressão, embora pudesse saber desde o início que deveria ter sido aquela única e que poderia ter realizado um teste mais forte.

      Para pessoas de fora que são mais espertas que o pesquisador 1 (não se importam com as 999 regressões adicionais desde o início) e leem sobre o trabalho, elas podem dar mais força à significância dos resultados, embora ainda não sejam tão fortes quanto ele resultado do pesquisador 2.

      Embora o pesquisador 1 possa ter sido muito conservador ao corrigir 999 regressões adicionais supérfluas, não podemos ignorar o fato de que a pesquisa foi realizada no vácuo do conhecimento e é muito mais provável que você encontre um pesquisador sortudo do tipo 1 do que o tipo 2)

Uma história interessante: na astronomia, quando eles estavam planejando um instrumento melhor para medir o fundo cósmico com maior precisão, houve pesquisadores que argumentaram em liberar apenas metade dos dados. Isso porque existe apenas uma chance para coletar dados. Uma vez que todas as regressões foram realizadas por dezenas de pesquisadores diferentes (e por causa da incrível variação e criatividade do teórico, certamente há alguma adequação a toda e possível colisão aleatória nos dados), não há possibilidade de realizar uma nova experiência para verificar (ou seja, a menos que você consiga gerar um universo totalmente novo).

Sextus Empiricus
fonte
1
+1 para @MartijnWeterings, como eu disse nos meus comentários, o problema não foi bem colocado matematicamente. Tive a impressão de que o OP achava que havia um paradoxo porque, porque os dois pesquisadores seriam levados à mesma escolha de modelo, mas aquele que faz 1000 regressões é penalizado por causa da necessidade de um problema de comparação múltipla. Não vejo isso como um paradoxo (não claro, mas acho que o OP o fez). Você deu uma resposta muito bem escrita e correta, que também explica intuitivamente por que os dois casos são diferentes. Acho que o OP deve dar um cheque à sua resposta!
Michael R. Chernick
1
Além disso, eu sei que isso é uma prática comum, mas você não acha preocupante dizer que um resultado é "evidência mais forte" que o outro, quando eles são exatamente o mesmo modelo e dados do mesmo processo de geração de dados? A única coisa diferente é o quanto terceiros examinaram os dados, e isso não deve ter nenhuma relação com o próprio DGP ou com suas crenças anteriores sobre o problema. A análise do pesquisador 2 deve ser manchada pela ignorância do pesquisador 1, por exemplo?
statslearner
1
@MartijnWeterings Por que a intenção do pesquisador importa para a interpretação dos dados? Se você estiver usando isso como uma heurística, como um leigo interpretando um resultado experiente, tudo bem. Mas para um cientista que analisa os dados, parece que a intenção do pesquisador não deve ter influência na sua interpretação das evidências.
statslearner
1
Portanto, parece que você está usando o comportamento do pesquisador como proxy do seu prior. Se o pesquisador executasse 1000 regressões, isso corresponderia a um valor baixo antes dessa hipótese específica. Se ele executasse apenas 1, isso corresponderia a uma alta anterior a essa hipótese. Se você teve os dois casos, não sabe qual antes do uso.
statslearner
1

Resumindo: não temos informações suficientes para responder à sua pergunta, porque não sabemos nada sobre os métodos usados ​​ou os dados coletados.

Resposta longa ... A verdadeira questão aqui é se cada pesquisador está fazendo:

  • ciência rigorosa
  • pseudociência rigorosa
  • exploração de dados
  • dragagem de dados ou p-hacking

Seus métodos determinarão a força da interpretação de seus resultados. Isso ocorre porque alguns métodos são menos sólidos que outros.

Na ciência rigorosa, desenvolvemos uma hipótese, identificamos variáveis ​​confusas, desenvolvemos controles para variáveis ​​fora da hipótese, planejamos métodos de teste, planejamos nossa metodologia analítica, executamos testes / coletamos dados e analisamos os dados. (Observe que os métodos analíticos são planejados antes que o teste ocorra). Este é o mais rigoroso, porque devemos aceitar dados e análises que não concordam com a hipótese. Não é aceitável alterar os métodos após o fato para obter algo interessante. Qualquer nova hipótese a partir das descobertas precisa passar pelo mesmo processo novamente.

Na pseudociência, geralmente coletamos dados que já foram coletados. Isso é mais difícil de usar eticamente, porque é mais fácil adicionar vieses aos resultados. No entanto, ainda é possível seguir o método científico para analistas éticos. Pode ser difícil estabelecer controles adequados e isso precisa ser pesquisado e observado.

A exploração de dados não se baseia na ciência. Não há hipótese específica. Não há uma avaliação prévia de fatores de confusão. Além disso, é difícil voltar e refazer a análise usando os mesmos dados, porque os resultados podem estar contaminados por conhecimento ou modelagem anteriores e não há novos dados para validação. Recomenda-se um rigoroso experimento científico para esclarecer possíveis relações encontradas na análise exploratória.

A dragagem de dados ou P-hacking é o local em que um "analista" realiza vários testes esperando uma resposta inesperada ou desconhecida ou manipula os dados para obter um resultado. Os resultados podem ser simples coincidências, podem resultar de variáveis ​​confusas ou podem não ter tamanho ou poder de efeito significativo.

Existem alguns remédios para cada problema, mas esses remédios devem ser cuidadosamente avaliados.

Adam Sampson
fonte
1
Eu acredito que você está adicionando ruído desnecessário à pergunta. Suponha que eles usaram os melhores métodos disponíveis. Os dados não foram coletados por eles, mas por uma agência de estatística, para que eles não tivessem controle sobre a coleta de dados. A única diferença é quanto cada pesquisador explorou os dados. Um deles explorou muito, o outro explorou apenas uma vez. Ambos obtêm o mesmo modelo final com os mesmos dados. Eles deveriam fazer inferências diferentes? E como isso deve afetar sua inferência?
statslearner
Isso não é ruído extra. Matemática é matemática. Se os modelos são idênticos, eles são idênticos. A maneira como você interpreta os modelos depende de todas as outras variáveis ​​não incluídas no seu problema. Se você ignorar todos os outros contextos, design ou experimentos, a resposta é simples, ambos os modelos funcionam igualmente matematicamente e são cientificamente fracos.
Adam Sampson