Li muitos artigos acadêmicos evolutivos / ecológicos, às vezes com o objetivo específico de ver como as estatísticas estão sendo usadas "no mundo real" fora do livro. Normalmente, tomo as estatísticas em documentos como evangelho e as uso para ajudar no meu aprendizado estatístico. Afinal, se um artigo levou anos para ser escrito e passou por rigorosa revisão por pares, certamente as estatísticas serão sólidas? Mas, nos últimos dias, questionei minha suposição e me perguntei com que frequência a análise estatística publicada em trabalhos acadêmicos é suspeita? Em particular, pode-se esperar que aqueles em áreas como ecologia e evolução tenham passado menos tempo aprendendo estatísticas e mais tempo aprendendo seus campos.
Com que frequência as pessoas encontram estatísticas suspeitas em trabalhos acadêmicos?
fonte
Respostas:
Minha experiência de ler artigos que tentam aplicar estatísticas em uma ampla variedade de áreas (ciência política, economia, psicologia, medicina, biologia, finanças, ciência atuarial, contabilidade, óptica, astronomia e muitas outras) é que a qualidade da a análise estatística pode estar em qualquer lugar do espectro, desde excelentes e bem-sucedidos até absurdos flagrantes. Vi boas análises em todas as áreas que mencionei, e análises muito mal feitas em quase todas elas.
Algumas revistas geralmente são muito boas, e outras podem parecer mais jogar dardos com os olhos vendados - é possível que a maioria delas não esteja muito longe do alvo, mas haverá algumas na parede, no chão e no teto. E talvez o gato.
Não pretendo nomear nenhum culpado, mas direi que vi carreiras acadêmicas construídas com base no uso incorreto de estatísticas (ou seja, onde os mesmos erros e mal-entendidos foram repetidos em papel após artigo, por mais de uma década).
Portanto, meu conselho é deixar o leitor tomar cuidado ; não confie que os editores e revisores sabem o que estão fazendo. Com o tempo, você pode ter uma boa noção de quais autores geralmente podem confiar para não fazer algo muito chocante e quais devem ser tratados com cautela. Você pode sentir que alguns periódicos geralmente têm um padrão muito alto para suas estatísticas.
Mas mesmo um autor tipicamente bom pode cometer um erro, ou árbitros e editores podem não conseguir detectar os erros que normalmente podem encontrar; um diário normalmente bom pode publicar um bugio.
[Às vezes, você até vê jornais muito ruins ganhando prêmios ou prêmios ... o que também não diz muito sobre a qualidade das pessoas que julgam o prêmio.]
Eu não gostaria de adivinhar qual a fração de estatísticas "ruins" que eu poderia ter visto (de várias formas e em todas as etapas, desde a definição da pergunta, design do estudo, coleta de dados, gerenciamento de dados, ... até análises e conclusões), mas não é suficientemente pequeno para me sentir confortável.
Eu poderia apontar para exemplos, mas não acho que este seja o fórum certo para fazer isso. (Seria bom se não era um fórum bom para que, na verdade, mas, novamente, é provável que se tornam altamente "politizado" muito rapidamente, e logo deixar de servir o seu propósito.)
Passei algum tempo vasculhando o PLOS ONE ... e novamente, não vou apontar para documentos específicos. Notei algumas coisas: parece que uma grande proporção de artigos possui estatísticas, provavelmente mais da metade fazendo testes de hipótese. Os principais perigos parecem ser muitos testes, com alto como 0,05 em cada um (o que não é automaticamente um problema, desde que entendamos que alguns efeitos realmente minúsculos podem aparecer significativos por acaso) ou incrivelmente baixo nível de significância individual, o que tenderá a gerar baixa potência. Eu também vi vários casos em que cerca de meia dúzia de testes diferentesα aparentemente foram aplicados para resolver exatamente a mesma pergunta. Isso me parece uma idéia geralmente ruim. No geral, o padrão foi muito bom em algumas dezenas de papéis, mas no passado eu vi um papel absolutamente terrível lá.
[Talvez eu possa entrar em apenas um exemplo, indiretamente. Esta pergunta pergunta sobre alguém fazendo algo bastante duvidoso. Está longe da pior coisa que já vi.]
Por outro lado, também vejo (ainda mais frequentemente) casos em que as pessoas são forçadas a passar por todos os tipos de obstáculos desnecessários para que suas análises sejam aceitas; coisas perfeitamente razoáveis a serem feitas não são aceitas porque existe uma maneira "certa" de fazer as coisas, de acordo com um revisor, editor ou supervisor, ou apenas na cultura tácita de uma área específica.
fonte
Eu respeito a posição de @ Glen_b no caminho certo para responder aqui (e certamente não pretendo prejudicá-la), mas não consigo resistir a apontar para um exemplo particularmente divertido que fica perto de minha casa. Correndo o risco de politizar as coisas e fazer com que o objetivo desta pergunta seja um desserviço, recomendo Wagenmakers, Wetzels, Boorsboom e Van Der Maas (2011) . Eu citei isso em um post relacionado no Cognitive Sciences beta SE ( como a ciência cognitiva explica a intencionalidade distante e a função cerebral dos receptores? ), Que considera outro exemplo de "um dardo batendo no gato". O artigo de Wagenmakers e colegas comenta diretamente um verdadeiro "bug": foi publicado no JPSP (um dos maiores periódicos em psicologia) alguns anos atrás. Eles também argumentam de maneira mais geral a favor da análise bayesiana e que:
Provavelmente não preciso lhe dizer que isso não pareceu exatamente uma pregação ao coral. FWIW, também há uma refutação (como sempre parece existir entre bayesianos e freqüentadores; ( Bem, Utts, & Johnson, 2011 ) , mas tenho a sensação de que isso não coincidiu exatamente com o debate .
A psicologia, como comunidade científica, sofreu um pouco de replicação recentemente, em parte devido a essa e outras deficiências metodológicas de alto perfil. Outros comentários aqui apontam casos semelhantes aos que antes eram conhecidos como correlações de vodu na neurociência social (como é que, para o BTW politicamente incorreto? O artigo foi renomeado; Vul, Harris, Winkielman e Pashler, 2009 ). Isso também atraiu sua refutação , que você pode conferir para mais debates sobre práticas altamente discutíveis.
Para obter ainda mais educação em detrimento (mais despersonalizada) de (pseudo) estatísticos se comportando mal, veja nossa 8ª pergunta mais votada atualmente no CV com outro título (reconhecidamente) politicamente incorreto: " O que são pecados estatísticos comuns? " O @MikeLawrence atribui sua inspiração ao estudo paralelo de psicologia e estatística. É um dos meus favoritos pessoais, e suas respostas são muito úteis para evitar as inúmeras armadilhas por aí.
No lado pessoal, passei boa parte dos meus últimos cinco meses aqui, em grande parte porque é incrivelmente difícil obter estatísticas sólidas sobre certas questões de análise de dados. Francamente, a revisão por pares muitas vezes não é muito rigorosa, especialmente em termos de análise estatística da pesquisa em ciências mais jovens com perguntas complexas e muitas complicações epistêmicas. Por isso, senti a necessidade de assumir responsabilidade pessoal por aprimorar os métodos em meu próprio trabalho.
Ao apresentar minha pesquisa de dissertação , tive uma noção de quão importante é a responsabilidade pessoal pelo escrutínio estatístico. Dois psicólogos excepcionais da minha alma mater interromperam que eu estava cometendo um dos pecados mais básicos em minhas interpretações de correlações. Eu já havia me acostumado a isso, e já havia ensinado estudantes de graduação várias vezes, mas eu ainda fui lá e fui chamado (no início, graças aos céus). Eu fui lá porque a pesquisa que eu estava revisando e replicando foi lá! Assim, acabei adicionando várias seções à minha dissertação que chamou esses outros pesquisadores por assumirem causalidade a partir de estudos longitudinais quase experimentais (às vezes até por correlações transversais) e por ignorarem prematuramente explicações alternativas.
Minha dissertação foi aceita sem revisões pelo meu comitê, que incluía outro psicométrico excepcional e o futuro presidente do SPSP (que publica o JPSP), mas, para ser franco mais uma vez, não estou me gabando em dizer isso. Desde então, consegui fazer vários buracos nos meus próprios métodos, apesar de passar no processo de revisão externa com ótimos revisores. Agora, eu caí no fundo das estatísticas ao tentar conectá-las a métodos mais apropriados para modelagem preditiva de classificações Likert como SEM, IRT e análise não paramétrica (consulte Teste de regressão após redução de dimensão) Estou optando voluntariamente por passar anos em um artigo que provavelmente poderia publicar como está ... Acho que ainda tenho um estudo de simulação para fazer antes de prosseguir com consciência.
No entanto, enfatizo que isso é opcional - talvez até excessivamente zeloso e um luxo caro em meio à cultura de publicar ou perecer, que geralmente enfatiza quantidade e qualidade em registros de trabalho no início da carreira. A aplicação incorreta de modelos paramétricos para dados contínuos a distribuições que violam suposições de dados ordinais é muito comum em meu campo, assim como a interpretação incorreta e a deturpação da significância estatística (consulte Acomodando visões entrincheiradas de valores-p ). Eu poderia me safar totalmente (a curto prazo) ... e não é tão difícil fazer melhor do que isso. Suponho que tenho vários anos recentes de avanços surpreendentes nos programas de R para agradecer por isso! Aqui está esperando que os tempos estejam mudando.
Referências
· Bem, DJ, Utts, J., & Johnson, WO (2011). Os psicólogos precisam mudar a maneira como analisam seus dados? Jornal de Personalidade e Psicologia Social, 101 (4), 716-719. Recuperado em http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P. e Pashler, H. (2009). Correlações intrigantes em estudos de ressonância magnética da emoção, personalidade e cognição social. Perspectives on Psychological Science, 4 (3), 274-290. Recuperado em http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. e Van der Maas, H. (2011). Por que os psicólogos devem mudar a maneira como analisam seus dados: o caso da psi. Jornal de Personalidade e Psicologia Social, 100 , 426-432. Recuperado em http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
fonte
Lembro-me na Universidade de ter sido perguntado por alguns estudantes de ciências sociais do último ano em diferentes ocasiões (um deles obteve o 1º) como calcular uma média para o seu projeto que tinha alguns dados. (Portanto, eles não estavam tendo problemas com o uso de software, apenas com o conceito de como fazer as contas com uma calculadora.)
Eles apenas me olham em branco quando eu pergunto a eles que tipo de média eles queriam.
No entanto, todos sentiram a necessidade de colocar algumas estatísticas em seu relatório, como foi feito - espero que todos tenham lido 101 artigos que possuíam estatísticas sem pensar no que as estatísticas significavam.
É claro que o pesquisador que os ensinou ao longo dos 3 anos não se preocupou com a correção das estatísticas o suficiente para destilar qualquer entendimento nos alunos.
(Eu era um estudante de ciência da computação na época. Estou postando isso como uma resposta, pois é um pouco longo para um comentário.)
fonte
Como uma lista lamentavelmente incompleta, considero as estatísticas mais corretas em 1) artigos de física, seguidos por 2) artigos de estatística e mais miseráveis em 3) artigos médicos. As razões para isso são simples e têm a ver com a integridade dos requisitos impostos ao modelo prototípico em cada campo.
Nos artigos de física, as equações e as estatísticas aplicadas devem prestar atenção às unidades equilibradas e ter a ocorrência mais frequente de relações causais e testar contra padrões físicos.
Na estatística, 1) unidades e causalidade são algumas vezes ignoradas, as suposições são algumas vezes heurísticas e o teste físico é freqüentemente ignorado, mas a igualdade (ou desigualdade), ou seja, a lógica é geralmente preservada ao longo de um caminho indutivo, onde este último não pode corrigir suposições não-físicas.
Na medicina, tipicamente as unidades são ignoradas, as equações e suposições são tipicamente heurísticas, tipicamente não testadas e freqüentemente falsas.
Naturalmente, é mais provável que um campo como a mecânica estatística tenha suposições testáveis do que, digamos, a economia e que não reflete os talentos dos autores em potencial nesses campos. Está mais relacionado ao quanto do que está sendo feito é realmente testável e ao quanto historicamente foi feito em cada campo.
fonte
Qualquer artigo que refute a hipótese nula nula está usando estatísticas sem valor (a grande maioria do que vi). Esse processo não pode fornecer informações ainda não fornecidas pelo tamanho do efeito. Além disso, não nos diz nada sobre se um resultado significativo é realmente devido à causa teorizada pelo pesquisador. Isso requer investigação cuidadosa dos dados para evidência de confusão. Na maioria das vezes, se presente, a mais forte dessas evidências é jogada fora como "outliers".
Eu não estou tão familiarizado com evolução / ecologia, mas no caso de pesquisas médicas e psicológicas eu chamaria o nível de entendimento estatístico de "severamente confuso" e "um obstáculo ao progresso científico". Supõe-se que as pessoas refutam algo previsto por sua teoria, não o contrário (diferença / efeito zero).
Existem milhares de artigos escritos sobre esse tópico. Procure a controvérsia híbrida do NHST.
Edit: E eu quero dizer que o teste de significância da hipótese nula nula tem um máximo de zero valor científico. Essa pessoa bate no prego na cabeça:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Também: Paul Meehl. 1967. Teste teórico em psicologia e física: um paradoxo metodológico
Edição 3:
Se alguém tem argumentos a favor da utilidade do palhaço NHST que não requer pensamento "rejeita a hipótese de que a taxa de aquecimento é a mesma, mas NÃO leve isso a sugerir que a taxa de aquecimento é a mesma" é uma racionalidade Gostaria de receber seus comentários.
Edição 4:
O que Fisher quis dizer com a seguinte citação? Isso sugere que ele pensou "Se o modelo / teoria A é incompatível com os dados, podemos dizer que A é falso, mas nada sobre se A não é verdadeiro"?
Karl Pearson e RA Fisher em testes estatísticos: uma troca de 1935 da natureza
Será que ele presumiu que as pessoas apenas tentariam invalidar hipóteses plausíveis em vez de palhaços? Ou eu estou errado?
fonte