Armadilhas no projeto experimental: Evitando experimentos mortos

27

Eu me deparei com essa citação várias vezes:

Consultar o estatístico após o término de um experimento geralmente é apenas pedir que ele faça um exame post mortem. Talvez ele possa dizer do que o experimento morreu. - Ronald Fisher (1938)

Para mim, parece um pouco presunçoso. Os únicos exemplos que eu já encontrei descrevendo como as experiências morrem sem um bom design são a falta de controles ou a falta de controles. Por exemplo, experimentos que controlam a aplicação de um fertilizante, mas não conseguem controlar o ambiente necessário para a aplicação. Talvez seja só eu, mas parece que uma rápida leitura da seção da Wikipedia sobre os princípios de design de Fisher cobriria a maioria das bases.

Como estatístico, com que frequência você vê o design de problemas relacionados aos experimentos com dados? Eles estão sempre relacionados aos poucos fatores mencionados por Fisher, ou a outras armadilhas sérias que nós, cientistas não treinados estatisticamente, devemos procurar?

naught101
fonte
4
Quantas vezes: com muita frequência. Chamar o experimento de "morto" geralmente está indo longe demais, mas eu vejo muitos experimentos que poderiam ter sido muito melhores com apenas pequenas alterações no design.
mark999
3
Eu já vi alguns. Embora possa ser presunçoso agora , lembre-se de que, quando Fisher disse isso, você não podia simplesmente procurar na wikipedia. A taxa pode ter sido muito maior nos primeiros dias.
Glen_b -Reinstala Monica
4
É bom que você levante esse ponto. Também estou curioso sobre o que talvez seja a primeira vez que vi um qualificador quádruplo: "Para mim, isso parece um pouco presunçoso". :-)
rolando2
1
@ rolando2: Heh, bem, é Fisher. Ele ganhou todos os qualificadores: D
naught101
5
Eu já vi - literalmente - muitos milhares de conjuntos de dados em minha carreira (e praticamente nenhum deles foi coletado de acordo com um projeto revisado por qualquer estatístico). A maioria deles foi coletada para fins formais, como o cumprimento de requisitos regulatórios. Não me lembro de um único que não apresentasse alguns problemas relacionados ao design (embora, às vezes, esses fossem pequenos). Isso não quer dizer que os conjuntos de dados foram inúteis ou "mortos": mas em quase todos os casos, minha tarefa era (continuar a analogia médica) primeiro ressuscitar o conjunto de dados e depois aplicá-lo ao seu objetivo, se possível.
whuber

Respostas:

14

Acredito que o que Fisher quis dizer em sua famosa citação vai além de dizer "Faremos um planejamento fatorial completo para o nosso estudo" ou outra abordagem de planejamento. Consultar um estatístico ao planejar o experimento significa pensar em todos os aspectos do problema de maneira inteligente, incluindo o objetivo da pesquisa, quais variáveis ​​são relevantes, como coletá-los, gerenciamento de dados, armadilhas, avaliação intermediária de como o experimento está indo e muito Mais. Muitas vezes, acho importante ver todos os aspectos do experimento proposto para entender realmente onde estão as dificuldades.

Minha experiência é principalmente de aplicações médicas. Alguns dos problemas que encontrei que poderiam ter sido evitados consultando um estatístico antes:

  • O tamanho insuficiente da amostra é, obviamente, o número um nesta lista. Muitas vezes, os dados de estudos anteriores estariam disponíveis e teria sido fácil fornecer uma estimativa razoável do tamanho da amostra necessário. Nesses casos, o único recurso é frequentemente fazer uma análise puramente descritiva dos dados e prometer mais pesquisas no artigo (não publicar geralmente não é uma opção depois que os médicos investem um tempo valioso).
  • A execução dos experimentos é deixada por conveniência e por acaso, em vez de por projeto. Um exemplo no qual estou trabalhando no momento tem medições coletadas ao longo do tempo. Os tempos de medição, frequência de medição e final do período de monitoramento variam muito entre os indivíduos. Aumentar o número de medições por indivíduo e fixar as datas das medições e o final do período de monitoramento teria sido um pouco mais trabalhoso (nesse caso) e teria sido muito benéfico para o estudo.
  • Mau controle dos fatores incômodos que poderiam ser facilmente controlados. Por exemplo, as medições foram realizadas algumas vezes no dia da coleta de amostras e outras vezes, deixando a possibilidade de que a amostra se degradasse.
  • Má gestão de dados, incluindo o meu favorito pessoal "Arredondei os dados antes de os colocar no computador, porque a máquina é imprecisa nas suas medições". Frequentemente, os dados relevantes simplesmente não são coletados e é impossível obtê-los após o fato.

Muitas vezes, os problemas de um estudo remontam ainda mais à concepção inicial da pesquisa:

  • Às vezes, os dados são coletados sem um objetivo claro e apenas a suposição de que serão úteis de alguma forma. Produzir hipóteses e "resultados significativos" é deixado para o estatístico.
  • E o oposto: os dados são agrupados com o objetivo de provar um ponto específico que o PI tem em sua mente, independentemente dos dados e do que realmente pode ser provado com ele. Desta vez, o estatístico deve colocar seu selo de significância em conclusões pré-escritas sem que as conclusões sejam ajustadas em face dos dados.

Até agora, isso soa principalmente como o estatístico sofre e talvez a integridade científica sofra quando o PI tenta tirar conclusões não suportadas pelos dados (sempre uma discussão divertida). Mas a equipe experimental também sofre, porque faz um trabalho extra desnecessário (embora não faça o trabalho necessário) durante a fase experimental e precisa passar muito mais tempo discutindo com seu estatístico depois do fato, porque não havia recebido aconselhamento antes. E, é claro, o artigo final será pior, terá menos conclusões (e mais "conjecturas") e provavelmente não entrará no diário de alto impacto que o PI queria.

Rob Hall
fonte
Com relação ao segundo de seu segundo conjunto de pontos, penso que a lógica normal de um estudo é coletar dados com o objetivo de provar pontos específicos.
Robert Jones
1
Você está, é claro, completamente certo. Eu estava um pouco curto demais lá. O que eu quis dizer foi um cenário em que um PI que está muito determinado a provar um ponto e dados de baixa qualidade que não podem provar esse ponto (geralmente devido a problemas fundamentais de design) se reúnem.
Rob Hall
12

Duas palavras: Tamanho da amostra ... Uma análise de energia é essencial. Ao incluir um estatístico competente em sua equipe desde o início, você provavelmente se poupará bastante ao escrever os resultados e as seções de discussão do seu manuscrito ou relatório.

É muito comum que um investigador principal colete dados antes de consultar um estatístico com a expectativa de um "modelo preditivo" ou "relação causal" de uma amostra com menos de 30 indivíduos. Se o IP consultasse um estatístico antes da coleta de dados, o estatístico teria sido capaz de informar o IP, após análises apropriadas, para coletar mais dados / sujeitos ou para reestruturar os objetivos de seu plano / projeto de análise.

Matt Reichenbach
fonte
1
Eu discordo de "Uma análise de poder é uma obrigação". Eu acho que muitas pessoas exageram a importância da análise de poder.
mark999
3
@ mark999: Pode ser, mas isso não nega a importância de realizar algum tipo de análise de poder antes de fazer o experimento, o que eu entendo ser o ponto de Matt.
Scortchi - Restabelece Monica
3
@ mark999: Eles podem ser úteis, é claro. Mas sob que circunstâncias você não recomendaria realizar nenhum tipo de análise de potência (incluindo a estimativa da largura esperada dos intervalos de confiança) antes de fazer um experimento? Só consigo pensar em (1) um estudo piloto, no qual você só está interessado em executar o protocolo e estimar aproximadamente o erro; (2) em um experimento para o qual você não pode escolher um tamanho de amostra por algum motivo, análise de energia redundante.
Scortchi - Restabelece Monica
2
@ mark999: Eu acho que sim. Para o seu caso (B), sugiro um estudo piloto -> análise de poder -> experimento para testar hipóteses ou estimar o tamanho dos efeitos como um plano inatacável.
Scortchi - Restabelece Monica
3
Mesmo se você tiver um tamanho de amostra fixo, não vejo motivo para enterrar a cabeça na areia e evitar uma análise de poder (respostas razoáveis ​​a restrições de recursos e ignorância).
Andy W
11

Suponho que depende de quão estritamente você interpreta a palavra "design". Às vezes, isso significa blocos completamente aleatórios versus blocos aleatórios, etc. Eu não acho que vi um estudo que morreu com isso. Além disso, como outros já mencionaram, suspeito que "morreu" seja muito forte, mas depende de como você interpreta o termo. Certamente, vi estudos 'não significativos' (e que os pesquisadores posteriormente não tentaram publicar como resultado); sob a suposição de que esses estudos poderiam ter sido "significativos" se realizados de maneira diferente (de acordo com os conselhos óbvios que eu daria) e, portanto, publicados, poderiam ser considerados "mortos". À luz dessa concepção, a questão de poder levantada por @RobHall e @MattReichenbach é bastante direta, mas há mais em poder do que o tamanho da amostra, e essas podem cair sob uma concepção mais vaga de "design". Aqui estão alguns exemplos:

  • Não reunindo / gravando / ou descartando informações
    , trabalhei em um estudo em que os pesquisadores estavam interessados ​​em saber se uma característica específica estava relacionada a um câncer. Eles pegaram ratos de duas linhas (isto é, linhas genéticas, os ratos foram criados para certas propriedades), onde se esperava que uma linha tivesse mais características que a outra. No entanto, a característica em questão não foi realmente medida, mesmo que pudesse ter sido. Essa situação é análoga a dicotomizar ou agrupar uma variável contínua, o que reduz a energia. No entanto, mesmo que os resultados fossem "significativos", seriam menos informativos do que se soubéssemos a magnitude da característica de cada mouse.

    Outro caso dentro desse mesmo cabeçalho não está pensando e reunindo covariáveis ​​óbvias.

  • Design inadequado do questionário
    Trabalhei recentemente em um estudo em que uma pesquisa de satisfação do paciente foi administrada sob duas condições. No entanto, nenhum dos itens teve pontuação inversa. Parecia que a maioria dos pacientes simplesmente desceu a lista e marcou todos os 5s ( concordo plenamente ), possivelmente sem sequer ler os itens. Havia outros problemas, mas isso é bastante óbvio. Estranhamente, o sujeito encarregado de conduzir o estudo me disse que sua participação a encorajara explicitamente a não examinar o estudo com um estatístico primeiro, mesmo que estejamos livres e convenientemente disponíveis para essa consultoria.

- Reinstate Monica
fonte
Whoa ... com o primeiro, o que eles mediram? isso parece um pouco, hum, óbvio. Ou eles receberam garantias de que as características eram diferentes nas diferentes linhas? O segundo exemplo é legal, um tipo de randomização em que a maioria das pessoas não pensaria.
precisa saber é o seguinte
5
Estava apenas testando uma cepa contra a outra. O traço em questão realmente tende a ser mais alto para uma das linhas, mas há alguma sobreposição - as distribuições não são totalmente separadas.
gung - Restabelece Monica
Eu tive uma experiência semelhante ao ponto 1: um dispositivo microfluídico foi instalado para reconhecer certo tipo de célula. Uma mistura de células a serem reconhecidas e células de controle foi injetada e uma corrente de vídeo + corrente de sinal a ser usada para o reconhecimento foram adquiridas. Infelizmente, embora o fluxo de vídeo possa ser usado como referência para saber se havia uma célula no detector em um determinado momento, não havia como saber qual era o tipo de célula, portanto não havia como determinar se um sinal era realmente positivo ou negativo. falso negativo ou nenhum sinal era verdade negativo ou falso positivo ...
cbeleites suportes Monica
8

Eu já vi esse tipo de problema em experimentos psicológicos e semelhantes a pesquisas.

Em um caso, todo o experimento teve que ser atribuído a uma experiência de aprendizado. Houve problemas em vários níveis que resultaram em uma confusão de resultados, mas resultados que pareciam dar algum apoio à hipótese. No final, pude ajudar a planejar um experimento mais rigoroso, que tinha essencialmente poder suficiente para rejeitar a hipótese.

No outro caso, recebi uma pesquisa que já havia sido projetada e executada, e houve vários problemas que resultaram em várias áreas de interesse sendo afetadas. Em uma área importante, por exemplo, eles perguntaram quantas vezes os clientes se afastaram de um evento por estarem cheios quando chegaram. O problema é que não há intervalo de tempo para a pergunta, então você não pode dizer a diferença entre alguém que tentou assistir 4 vezes e foi recusado 4 vezes e alguém que tentou assistir 40 vezes e foi recusado apenas 4 vezes .

Eu não sou um Estatístico treinado em capital, mas se eles viessem até mim antes, eu poderia ajudá-los a resolver esses problemas e obter melhores resultados. No primeiro caso, ainda teria sido decepcionante: "Desculpe, sua hipótese parece extremamente improvável", mas poderia ter poupado a eles um segundo experimento. No segundo caso, eles teriam dado respostas a algumas perguntas importantes e teriam tornado os resultados mais nítidos. (Outro problema que eles tiveram é que pesquisaram vários locais ao longo do tempo e, pelo menos, algumas pessoas foram pesquisadas várias vezes, sem nenhuma pergunta como "Você já fez essa pesquisa em outro lugar?")

Talvez não sejam questões estatísticas por si só, mas em ambos os casos, especialistas em domínio inteligentes e bem-educados criaram instrumentos com falhas, e os resultados foram um experimento morto e um experimento com membros amputados.

Wayne
fonte