Eu me deparei com essa citação várias vezes:
Consultar o estatístico após o término de um experimento geralmente é apenas pedir que ele faça um exame post mortem. Talvez ele possa dizer do que o experimento morreu. - Ronald Fisher (1938)
Para mim, parece um pouco presunçoso. Os únicos exemplos que eu já encontrei descrevendo como as experiências morrem sem um bom design são a falta de controles ou a falta de controles. Por exemplo, experimentos que controlam a aplicação de um fertilizante, mas não conseguem controlar o ambiente necessário para a aplicação. Talvez seja só eu, mas parece que uma rápida leitura da seção da Wikipedia sobre os princípios de design de Fisher cobriria a maioria das bases.
Como estatístico, com que frequência você vê o design de problemas relacionados aos experimentos com dados? Eles estão sempre relacionados aos poucos fatores mencionados por Fisher, ou a outras armadilhas sérias que nós, cientistas não treinados estatisticamente, devemos procurar?
fonte
Respostas:
Acredito que o que Fisher quis dizer em sua famosa citação vai além de dizer "Faremos um planejamento fatorial completo para o nosso estudo" ou outra abordagem de planejamento. Consultar um estatístico ao planejar o experimento significa pensar em todos os aspectos do problema de maneira inteligente, incluindo o objetivo da pesquisa, quais variáveis são relevantes, como coletá-los, gerenciamento de dados, armadilhas, avaliação intermediária de como o experimento está indo e muito Mais. Muitas vezes, acho importante ver todos os aspectos do experimento proposto para entender realmente onde estão as dificuldades.
Minha experiência é principalmente de aplicações médicas. Alguns dos problemas que encontrei que poderiam ter sido evitados consultando um estatístico antes:
Muitas vezes, os problemas de um estudo remontam ainda mais à concepção inicial da pesquisa:
Até agora, isso soa principalmente como o estatístico sofre e talvez a integridade científica sofra quando o PI tenta tirar conclusões não suportadas pelos dados (sempre uma discussão divertida). Mas a equipe experimental também sofre, porque faz um trabalho extra desnecessário (embora não faça o trabalho necessário) durante a fase experimental e precisa passar muito mais tempo discutindo com seu estatístico depois do fato, porque não havia recebido aconselhamento antes. E, é claro, o artigo final será pior, terá menos conclusões (e mais "conjecturas") e provavelmente não entrará no diário de alto impacto que o PI queria.
fonte
Duas palavras: Tamanho da amostra ... Uma análise de energia é essencial. Ao incluir um estatístico competente em sua equipe desde o início, você provavelmente se poupará bastante ao escrever os resultados e as seções de discussão do seu manuscrito ou relatório.
É muito comum que um investigador principal colete dados antes de consultar um estatístico com a expectativa de um "modelo preditivo" ou "relação causal" de uma amostra com menos de 30 indivíduos. Se o IP consultasse um estatístico antes da coleta de dados, o estatístico teria sido capaz de informar o IP, após análises apropriadas, para coletar mais dados / sujeitos ou para reestruturar os objetivos de seu plano / projeto de análise.
fonte
Suponho que depende de quão estritamente você interpreta a palavra "design". Às vezes, isso significa blocos completamente aleatórios versus blocos aleatórios, etc. Eu não acho que vi um estudo que morreu com isso. Além disso, como outros já mencionaram, suspeito que "morreu" seja muito forte, mas depende de como você interpreta o termo. Certamente, vi estudos 'não significativos' (e que os pesquisadores posteriormente não tentaram publicar como resultado); sob a suposição de que esses estudos poderiam ter sido "significativos" se realizados de maneira diferente (de acordo com os conselhos óbvios que eu daria) e, portanto, publicados, poderiam ser considerados "mortos". À luz dessa concepção, a questão de poder levantada por @RobHall e @MattReichenbach é bastante direta, mas há mais em poder do que o tamanho da amostra, e essas podem cair sob uma concepção mais vaga de "design". Aqui estão alguns exemplos:
Não reunindo / gravando / ou descartando informações
, trabalhei em um estudo em que os pesquisadores estavam interessados em saber se uma característica específica estava relacionada a um câncer. Eles pegaram ratos de duas linhas (isto é, linhas genéticas, os ratos foram criados para certas propriedades), onde se esperava que uma linha tivesse mais características que a outra. No entanto, a característica em questão não foi realmente medida, mesmo que pudesse ter sido. Essa situação é análoga a dicotomizar ou agrupar uma variável contínua, o que reduz a energia. No entanto, mesmo que os resultados fossem "significativos", seriam menos informativos do que se soubéssemos a magnitude da característica de cada mouse.
Outro caso dentro desse mesmo cabeçalho não está pensando e reunindo covariáveis óbvias.
Design inadequado do questionário
Trabalhei recentemente em um estudo em que uma pesquisa de satisfação do paciente foi administrada sob duas condições. No entanto, nenhum dos itens teve pontuação inversa. Parecia que a maioria dos pacientes simplesmente desceu a lista e marcou todos os 5s ( concordo plenamente ), possivelmente sem sequer ler os itens. Havia outros problemas, mas isso é bastante óbvio. Estranhamente, o sujeito encarregado de conduzir o estudo me disse que sua participação a encorajara explicitamente a não examinar o estudo com um estatístico primeiro, mesmo que estejamos livres e convenientemente disponíveis para essa consultoria.
fonte
Eu já vi esse tipo de problema em experimentos psicológicos e semelhantes a pesquisas.
Em um caso, todo o experimento teve que ser atribuído a uma experiência de aprendizado. Houve problemas em vários níveis que resultaram em uma confusão de resultados, mas resultados que pareciam dar algum apoio à hipótese. No final, pude ajudar a planejar um experimento mais rigoroso, que tinha essencialmente poder suficiente para rejeitar a hipótese.
No outro caso, recebi uma pesquisa que já havia sido projetada e executada, e houve vários problemas que resultaram em várias áreas de interesse sendo afetadas. Em uma área importante, por exemplo, eles perguntaram quantas vezes os clientes se afastaram de um evento por estarem cheios quando chegaram. O problema é que não há intervalo de tempo para a pergunta, então você não pode dizer a diferença entre alguém que tentou assistir 4 vezes e foi recusado 4 vezes e alguém que tentou assistir 40 vezes e foi recusado apenas 4 vezes .
Eu não sou um Estatístico treinado em capital, mas se eles viessem até mim antes, eu poderia ajudá-los a resolver esses problemas e obter melhores resultados. No primeiro caso, ainda teria sido decepcionante: "Desculpe, sua hipótese parece extremamente improvável", mas poderia ter poupado a eles um segundo experimento. No segundo caso, eles teriam dado respostas a algumas perguntas importantes e teriam tornado os resultados mais nítidos. (Outro problema que eles tiveram é que pesquisaram vários locais ao longo do tempo e, pelo menos, algumas pessoas foram pesquisadas várias vezes, sem nenhuma pergunta como "Você já fez essa pesquisa em outro lugar?")
Talvez não sejam questões estatísticas por si só, mas em ambos os casos, especialistas em domínio inteligentes e bem-educados criaram instrumentos com falhas, e os resultados foram um experimento morto e um experimento com membros amputados.
fonte