Estatísticas publicadas em trabalhos acadêmicos

44

Li muitos artigos acadêmicos evolutivos / ecológicos, às vezes com o objetivo específico de ver como as estatísticas estão sendo usadas "no mundo real" fora do livro. Normalmente, tomo as estatísticas em documentos como evangelho e as uso para ajudar no meu aprendizado estatístico. Afinal, se um artigo levou anos para ser escrito e passou por rigorosa revisão por pares, certamente as estatísticas serão sólidas? Mas, nos últimos dias, questionei minha suposição e me perguntei com que frequência a análise estatística publicada em trabalhos acadêmicos é suspeita? Em particular, pode-se esperar que aqueles em áreas como ecologia e evolução tenham passado menos tempo aprendendo estatísticas e mais tempo aprendendo seus campos.

Com que frequência as pessoas encontram estatísticas suspeitas em trabalhos acadêmicos?

luciano
fonte
18
Os revisores geralmente são pessoas que não sabem muito mais sobre estatísticas do que aqueles que escrevem o artigo, portanto, pode ser fácil publicar estatísticas ruins.
Behacad
9
Publicar um artigo é o primeiro passo para sua aceitação pela comunidade científica, não o último. A maioria dos trabalhos publicados apresenta falhas significativas em algumas áreas, o uso de estatísticas não é exceção.
Dikran Marsupial
3
Sua suposição de que os documentos "levam anos para serem escritos" está muito errada. A coleta de dados pode levar um longo tempo, mas a análise e a gravação dos dados são tipicamente semanas, e não anos.
precisa saber é o seguinte
2
Hoje em dia, é sabido que as estatísticas em muitos artigos de psicologia e medicina são questionáveis, pelo menos, claramente erradas ou nem mesmo com bastante frequência. O uso pobre de valores-p e NHST é um exemplo proeminente dos problemas, veja esta nota .
Quartzo

Respostas:

38

Afinal, se um artigo levou anos para ser escrito e passou por rigorosa revisão por pares, certamente as estatísticas serão sólidas?

Minha experiência de ler artigos que tentam aplicar estatísticas em uma ampla variedade de áreas (ciência política, economia, psicologia, medicina, biologia, finanças, ciência atuarial, contabilidade, óptica, astronomia e muitas outras) é que a qualidade da a análise estatística pode estar em qualquer lugar do espectro, desde excelentes e bem-sucedidos até absurdos flagrantes. Vi boas análises em todas as áreas que mencionei, e análises muito mal feitas em quase todas elas.

Algumas revistas geralmente são muito boas, e outras podem parecer mais jogar dardos com os olhos vendados - é possível que a maioria delas não esteja muito longe do alvo, mas haverá algumas na parede, no chão e no teto. E talvez o gato.

Não pretendo nomear nenhum culpado, mas direi que vi carreiras acadêmicas construídas com base no uso incorreto de estatísticas (ou seja, onde os mesmos erros e mal-entendidos foram repetidos em papel após artigo, por mais de uma década).

Portanto, meu conselho é deixar o leitor tomar cuidado ; não confie que os editores e revisores sabem o que estão fazendo. Com o tempo, você pode ter uma boa noção de quais autores geralmente podem confiar para não fazer algo muito chocante e quais devem ser tratados com cautela. Você pode sentir que alguns periódicos geralmente têm um padrão muito alto para suas estatísticas.

Mas mesmo um autor tipicamente bom pode cometer um erro, ou árbitros e editores podem não conseguir detectar os erros que normalmente podem encontrar; um diário normalmente bom pode publicar um bugio.

[Às vezes, você até vê jornais muito ruins ganhando prêmios ou prêmios ... o que também não diz muito sobre a qualidade das pessoas que julgam o prêmio.]

Eu não gostaria de adivinhar qual a fração de estatísticas "ruins" que eu poderia ter visto (de várias formas e em todas as etapas, desde a definição da pergunta, design do estudo, coleta de dados, gerenciamento de dados, ... até análises e conclusões), mas não é suficientemente pequeno para me sentir confortável.

Eu poderia apontar para exemplos, mas não acho que este seja o fórum certo para fazer isso. (Seria bom se não era um fórum bom para que, na verdade, mas, novamente, é provável que se tornam altamente "politizado" muito rapidamente, e logo deixar de servir o seu propósito.)

Passei algum tempo vasculhando o PLOS ONE ... e novamente, não vou apontar para documentos específicos. Notei algumas coisas: parece que uma grande proporção de artigos possui estatísticas, provavelmente mais da metade fazendo testes de hipótese. Os principais perigos parecem ser muitos testes, com alto como 0,05 em cada um (o que não é automaticamente um problema, desde que entendamos que alguns efeitos realmente minúsculos podem aparecer significativos por acaso) ou incrivelmente baixo nível de significância individual, o que tenderá a gerar baixa potência. Eu também vi vários casos em que cerca de meia dúzia de testes diferentesαaparentemente foram aplicados para resolver exatamente a mesma pergunta. Isso me parece uma idéia geralmente ruim. No geral, o padrão foi muito bom em algumas dezenas de papéis, mas no passado eu vi um papel absolutamente terrível lá.

[Talvez eu possa entrar em apenas um exemplo, indiretamente. Esta pergunta pergunta sobre alguém fazendo algo bastante duvidoso. Está longe da pior coisa que já vi.]

Por outro lado, também vejo (ainda mais frequentemente) casos em que as pessoas são forçadas a passar por todos os tipos de obstáculos desnecessários para que suas análises sejam aceitas; coisas perfeitamente razoáveis ​​a serem feitas não são aceitas porque existe uma maneira "certa" de fazer as coisas, de acordo com um revisor, editor ou supervisor, ou apenas na cultura tácita de uma área específica.

Glen_b
fonte
2
" Advertência ", dado o crescente número de periódicos de acesso aberto?
Scortchi - Restabelece Monica
1
@ scortchi Decidi evitar o problema simplesmente escrevendo em inglês. É uma melhoria.
Glen_b
10
Sem nomear culpados específicos, acho que faculty.vassar.edu/abbaird/about/publications/pdfs/… merece uma menção. Para provar um ponto sobre o uso indevido de estatísticas em seu campo, eles usaram um protocolo estatístico amplamente usado para analisar os resultados de uma ressonância magnética de um salmão morto. Eles descobriram atividade cerebral "estatisticamente significativa". statisticsdonewrong.com também faz uma leitura interessante.
James_pic
1
@ James_pic, teve que se juntar a +1 nesse comentário para o link statisticsdonewong; a discussão da falácia da taxa básica é particularmente interessante.
Dan Bryant
1
@KennyPeanuts: Nem - apenas salientando que hoje em dia muitos setores não são nem indiretamente emptores .
Scortchi - Reinstate Monica
16

Eu respeito a posição de @ Glen_b no caminho certo para responder aqui (e certamente não pretendo prejudicá-la), mas não consigo resistir a apontar para um exemplo particularmente divertido que fica perto de minha casa. Correndo o risco de politizar as coisas e fazer com que o objetivo desta pergunta seja um desserviço, recomendo Wagenmakers, Wetzels, Boorsboom e Van Der Maas (2011) . Eu citei isso em um post relacionado no Cognitive Sciences beta SE ( como a ciência cognitiva explica a intencionalidade distante e a função cerebral dos receptores? ), Que considera outro exemplo de "um dardo batendo no gato". O artigo de Wagenmakers e colegas comenta diretamente um verdadeiro "bug": foi publicado no JPSP (um dos maiores periódicos em psicologia) alguns anos atrás. Eles também argumentam de maneira mais geral a favor da análise bayesiana e que:

Para convencer o público cético de uma alegação controversa, é necessário realizar estudos estritamente confirmatórios e analisar os resultados com testes estatísticos mais conservadores do que liberais.

Provavelmente não preciso lhe dizer que isso não pareceu exatamente uma pregação ao coral. FWIW, também há uma refutação (como sempre parece existir entre bayesianos e freqüentadores; ( Bem, Utts, & Johnson, 2011 ) , mas tenho a sensação de que isso não coincidiu exatamente com o debate .

A psicologia, como comunidade científica, sofreu um pouco de replicação recentemente, em parte devido a essa e outras deficiências metodológicas de alto perfil. Outros comentários aqui apontam casos semelhantes aos que antes eram conhecidos como correlações de vodu na neurociência social (como é que, para o BTW politicamente incorreto? O artigo foi renomeado; Vul, Harris, Winkielman e Pashler, 2009 ). Isso também atraiu sua refutação , que você pode conferir para mais debates sobre práticas altamente discutíveis.

Para obter ainda mais educação em detrimento (mais despersonalizada) de (pseudo) estatísticos se comportando mal, veja nossa 8ª pergunta mais votada atualmente no CV com outro título (reconhecidamente) politicamente incorreto: " O que são pecados estatísticos comuns? " O @MikeLawrence atribui sua inspiração ao estudo paralelo de psicologia e estatística. É um dos meus favoritos pessoais, e suas respostas são muito úteis para evitar as inúmeras armadilhas por aí.


No lado pessoal, passei boa parte dos meus últimos cinco meses aqui, em grande parte porque é incrivelmente difícil obter estatísticas sólidas sobre certas questões de análise de dados. Francamente, a revisão por pares muitas vezes não é muito rigorosa, especialmente em termos de análise estatística da pesquisa em ciências mais jovens com perguntas complexas e muitas complicações epistêmicas. Por isso, senti a necessidade de assumir responsabilidade pessoal por aprimorar os métodos em meu próprio trabalho.

Ao apresentar minha pesquisa de dissertação , tive uma noção de quão importante é a responsabilidade pessoal pelo escrutínio estatístico. Dois psicólogos excepcionais da minha alma mater interromperam que eu estava cometendo um dos pecados mais básicos em minhas interpretações de correlações. Eu já havia me acostumado a isso, e já havia ensinado estudantes de graduação várias vezes, mas eu ainda fui lá e fui chamado (no início, graças aos céus). Eu fui lá porque a pesquisa que eu estava revisando e replicando foi lá! Assim, acabei adicionando várias seções à minha dissertação que chamou esses outros pesquisadores por assumirem causalidade a partir de estudos longitudinais quase experimentais (às vezes até por correlações transversais) e por ignorarem prematuramente explicações alternativas.

Minha dissertação foi aceita sem revisões pelo meu comitê, que incluía outro psicométrico excepcional e o futuro presidente do SPSP (que publica o JPSP), mas, para ser franco mais uma vez, não estou me gabando em dizer isso. Desde então, consegui fazer vários buracos nos meus próprios métodos, apesar de passar no processo de revisão externa com ótimos revisores. Agora, eu caí no fundo das estatísticas ao tentar conectá-las a métodos mais apropriados para modelagem preditiva de classificações Likert como SEM, IRT e análise não paramétrica (consulte Teste de regressão após redução de dimensão) Estou optando voluntariamente por passar anos em um artigo que provavelmente poderia publicar como está ... Acho que ainda tenho um estudo de simulação para fazer antes de prosseguir com consciência.

No entanto, enfatizo que isso é opcional - talvez até excessivamente zeloso e um luxo caro em meio à cultura de publicar ou perecer, que geralmente enfatiza quantidade e qualidade em registros de trabalho no início da carreira. A aplicação incorreta de modelos paramétricos para dados contínuos a distribuições que violam suposições de dados ordinais é muito comum em meu campo, assim como a interpretação incorreta e a deturpação da significância estatística (consulte Acomodando visões entrincheiradas de valores-p ). Eu poderia me safar totalmente (a curto prazo) ... e não é tão difícil fazer melhor do que isso. Suponho que tenho vários anos recentes de avanços surpreendentes nos programas de R para agradecer por isso! Aqui está esperando que os tempos estejam mudando.


Referências
· Bem, DJ, Utts, J., & Johnson, WO (2011). Os psicólogos precisam mudar a maneira como analisam seus dados? Jornal de Personalidade e Psicologia Social, 101 (4), 716-719. Recuperado em http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P. e Pashler, H. (2009). Correlações intrigantes em estudos de ressonância magnética da emoção, personalidade e cognição social. Perspectives on Psychological Science, 4 (3), 274-290. Recuperado em http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. e Van der Maas, H. (2011). Por que os psicólogos devem mudar a maneira como analisam seus dados: o caso da psi. Jornal de Personalidade e Psicologia Social, 100 , 426-432. Recuperado em http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .

Nick Stauner
fonte
1
Se você gostou de "Feeling the Future", pode gostar de Witztum et al. (1994), "Sequências de letras equidistantes no livro de Gênesis", Statist. Sci. , 9 , 3 . Atraiu os inevitáveis ​​escárnios e negativistas: McKay et. al. (1999), "Resolvendo o quebra-cabeça do código da Bíblia", Statist. Sci. , 14 , 2 .
Scortchi - Restabelece Monica
1
@ Scortchi: obrigado pela referência e ameba: obrigado pelo contexto. Não vejo a afirmação de Witzum et al. que McKay et al. zombam de seu resumo, mas com certeza apontam muitas outras falhas sérias. Coisa boa. "Enquanto dados reais podem confundir as expectativas dos cientistas, mesmo quando suas hipóteses estão corretas, aqueles cujas experiências são sistematicamente tendenciosas em relação às suas expectativas são menos decepcionados (Rosenthal, 1976)". Esse é um dos caras que me chamou de inferência causal com base em quase-experimentos ... um psicólogo realmente bom. Bem também tem algum crédito.
perfil completo de Nick Stauner
2
+1 Excelente postagem. " quão importante é a responsabilidade pessoal pelo exame estatístico " - devo aplaudir. Em última análise, é aqui que a responsabilidade deve residir, por mais onerosa que possa ser para alguém que já está tentando fazer o trabalho em uma área de pesquisa à qual deseja aplicar estatísticas.
Glen_b
1
@ NickStauner: McKay et al. dizem em seu resumo que Witzum et al. afirmação "o texto hebraico do Livro de Gênesis codifica eventos que não ocorreram até milênios após o texto ter sido escrito". Ligeira hipérbole, talvez, já que há pouco mais de dois milênios entre a escrita da Torá e a data de nascimento do último rabino da lista deles, mas um resumo bastante razoável. (Suponho que você também possa ver o artigo de Witztum et al. Como evidência da autoria recente do Livro do Gênesis, embora, tanto quanto eu saiba, ninguém o tenha feito.)
Scortchi - Reinstate Monica
1
Sim, acho que não consegui entender Witzum et al. bem o suficiente para reconhecer que eles estavam fazendo essa afirmação. Pela primeira vez, suponho que poderia ser grato pela escrita obtusa dos autores ... Parece um pouco mais interessante em termos de valor nominal, porque a afirmação mais proeminente é que o padrão não é devido ao acaso, não ao que o padrão é supostamente devido. na opinião deles. Poderia ter convidado interpretações mais interessantes como a sua, se não fosse exagerado, como McKay et al. diz que sim ... pelo menos até McKay et al. abateu-os por motivos metodológicos, não deixando nada que valha a pena interpretar.
Nick Stauner
5

Lembro-me na Universidade de ter sido perguntado por alguns estudantes de ciências sociais do último ano em diferentes ocasiões (um deles obteve o 1º) como calcular uma média para o seu projeto que tinha alguns dados. (Portanto, eles não estavam tendo problemas com o uso de software, apenas com o conceito de como fazer as contas com uma calculadora.)

Eles apenas me olham em branco quando eu pergunto a eles que tipo de média eles queriam.

No entanto, todos sentiram a necessidade de colocar algumas estatísticas em seu relatório, como foi feito - espero que todos tenham lido 101 artigos que possuíam estatísticas sem pensar no que as estatísticas significavam.

É claro que o pesquisador que os ensinou ao longo dos 3 anos não se preocupou com a correção das estatísticas o suficiente para destilar qualquer entendimento nos alunos.

(Eu era um estudante de ciência da computação na época. Estou postando isso como uma resposta, pois é um pouco longo para um comentário.)

Ian Ringrose
fonte
Os estudantes são um monte de macacos, IMO. Eu não culpo o professor imediatamente por sua falta de compreensão sem mais evidências ... mas se é tão claro quanto você diz que o professor é o culpado, também não ficaria surpreso.
Nick Stauner
@NickStauner, culpo o professor por não se importar o suficiente com estatísticas; se eles se importassem, haveria pelo menos uma pergunta em cada prova que exigisse algum entendimento das estatísticas, no nível de “Como mentir com as estatísticas”. Não me importo se os estudantes de ciências sociais sabem como calcular, mas devem saber como não se enganar.
Ian Ringrose
Concordaram que eles deveriam saber, mas não há garantia de que eles acertarão essa pergunta!
perfil completo de Nick Stauner
@NickStauner, Sim, mas você só entende qual é a medida, para que você não entenda nada sobre estatísticas, a menos que você a faça nos exames.
31815 Ian McGraw-
Novamente, costumo dar aos professores menos crédito pelos resultados dos alunos. Muitos estudantes (ok, talvez não sejam "muitos", mas alguns) se importam o suficiente para aprender por si só, e alguns vão para a aula já conhecendo muito do material. Perdoe-me se eu interpretar seu comentário muito absolutamente; Concordo que muitas vezes é um mal necessário forçar a motivação para aprender com os alunos, e que testar é uma maneira melhor de aprender do que estudar / dar aulas repetidas e repetidas.
perfil completo de Nick Stauner
0

Como uma lista lamentavelmente incompleta, considero as estatísticas mais corretas em 1) artigos de física, seguidos por 2) artigos de estatística e mais miseráveis ​​em 3) artigos médicos. As razões para isso são simples e têm a ver com a integridade dos requisitos impostos ao modelo prototípico em cada campo.

Nos artigos de física, as equações e as estatísticas aplicadas devem prestar atenção às unidades equilibradas e ter a ocorrência mais frequente de relações causais e testar contra padrões físicos.

Na estatística, 1) unidades e causalidade são algumas vezes ignoradas, as suposições são algumas vezes heurísticas e o teste físico é freqüentemente ignorado, mas a igualdade (ou desigualdade), ou seja, a lógica é geralmente preservada ao longo de um caminho indutivo, onde este último não pode corrigir suposições não-físicas.

Na medicina, tipicamente as unidades são ignoradas, as equações e suposições são tipicamente heurísticas, tipicamente não testadas e freqüentemente falsas.

Naturalmente, é mais provável que um campo como a mecânica estatística tenha suposições testáveis ​​do que, digamos, a economia e que não reflete os talentos dos autores em potencial nesses campos. Está mais relacionado ao quanto do que está sendo feito é realmente testável e ao quanto historicamente foi feito em cada campo.

Carl
fonte
-7

Qualquer artigo que refute a hipótese nula nula está usando estatísticas sem valor (a grande maioria do que vi). Esse processo não pode fornecer informações ainda não fornecidas pelo tamanho do efeito. Além disso, não nos diz nada sobre se um resultado significativo é realmente devido à causa teorizada pelo pesquisador. Isso requer investigação cuidadosa dos dados para evidência de confusão. Na maioria das vezes, se presente, a mais forte dessas evidências é jogada fora como "outliers".

Eu não estou tão familiarizado com evolução / ecologia, mas no caso de pesquisas médicas e psicológicas eu chamaria o nível de entendimento estatístico de "severamente confuso" e "um obstáculo ao progresso científico". Supõe-se que as pessoas refutam algo previsto por sua teoria, não o contrário (diferença / efeito zero).

Existem milhares de artigos escritos sobre esse tópico. Procure a controvérsia híbrida do NHST.

Edit: E eu quero dizer que o teste de significância da hipótese nula nula tem um máximo de zero valor científico. Essa pessoa bate no prego na cabeça:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Também: Paul Meehl. 1967. Teste teórico em psicologia e física: um paradoxo metodológico

Edição 3:

Se alguém tem argumentos a favor da utilidade do palhaço NHST que não requer pensamento "rejeita a hipótese de que a taxa de aquecimento é a mesma, mas NÃO leve isso a sugerir que a taxa de aquecimento é a mesma" é uma racionalidade Gostaria de receber seus comentários.

Edição 4:

O que Fisher quis dizer com a seguinte citação? Isso sugere que ele pensou "Se o modelo / teoria A é incompatível com os dados, podemos dizer que A é falso, mas nada sobre se A não é verdadeiro"?

"é certo que o interesse de testes estatísticos para trabalhadores científicos depende inteiramente de seu uso na rejeição de hipóteses que são consideradas incompatíveis com as observações".

...

Acrescentaria, portanto, muito à clareza com que os testes de significância são considerados, se for geralmente entendido que os testes de significância, quando usados ​​com precisão, são capazes de rejeitar ou invalidar hipóteses, na medida em que elas são contraditórias pelos dados. ; mas que eles nunca são capazes de estabelecê-los como certamente verdadeiros

Karl Pearson e RA Fisher em testes estatísticos: uma troca de 1935 da natureza

Será que ele presumiu que as pessoas apenas tentariam invalidar hipóteses plausíveis em vez de palhaços? Ou eu estou errado?

Lívido
fonte
7
"Este processo não pode fornecer informações ainda não fornecidas pelo tamanho do efeito." isso está incorreto, o valor p fornece algumas informações sobre quão incomum esse tamanho de efeito seria sob a hipótese nula, portanto, fornece um elemento de calibração do tamanho do efeito. Não me entenda mal, acho que os fatores de Bayes são mais úteis, mas é exagero dizer que o valor-p é uma estatística sem valor.
Dikran Marsupial 03/04
3
"Acho que vale a pena mencionar todos os padrões que eu (e outros) notamos", esse é exatamente o problema que surge na discussão do clima nos blogs; o olho humano é muito bom em ver padrões nos dados que acabam sendo apenas ruído, e faz com que a relação sinal / ruído no debate não seja de todo boa para não haver obstáculos para que uma idéia seja resolvida antes de publicá-la em um blog! É uma área da ciência em que as estatísticas costumam ser muito pobres.
Dikran Marsupial
2
Lívido, dei um exemplo concreto de como realizar um NHST apropriado com um "homem de palha" H0 seria benéfico para a discussão de um tópico científico. Que fornece um contra-exemplo claro que demonstra a sua visão para ser incorreta - NHSTs, como falho como elas são, não obstante executar uma função útil em ciência e estatísticas. Agora, se você puder demonstrar que meu contra-exemplo está correto, isso pode ajudar a resolver o problema.
Dikran Marsupial
2
@Livid, o NHST desempenha uma função científica e estatisticamente não socialmente desejável (embora não seja ideal) e não estabelece um obstáculo arbitrário, o obstáculo é geralmente definido por sua oposição ao H1 e não envolve cometer "afirmar a conseqüente falácias "ao rejeitar H0 não implica que H1 seja verdadeiro. Então não, não é preciso.
Dikran Marsupial 04/04
3
Você está perdendo o ponto. Se você tem um obstáculo baixo, ninguém fica surpreso se conseguir negociá-lo com sucesso. No entanto, se você tem um obstáculo baixo, mas ainda não consegue superar isso, isso lhe diz algo. Como eu já disse várias vezes, rejeitar o nulo não implica que H1 seja verdadeiro; portanto, rejeitar H0 não significa que definitivamente haja uma pausa, não diz por que houve uma pausa. Mas se você não consegue superar o obstáculo de poder rejeitar H0, isso sugere que talvez haja evidências insuficientes para afirmar H1 como fato (o que está acontecendo neste caso).
Dikran Marsupial