Recentemente, fiz uma pergunta sobre princípios gerais em torno da revisão de estatísticas em artigos . O que eu gostaria agora de perguntar é o que o irrita particularmente ao revisar um artigo, ou seja, qual é a melhor maneira de realmente irritar um árbitro estatístico!
Um exemplo por resposta, por favor.
references
referee
csgillespie
fonte
fonte
Respostas:
O que mais me irrita pessoalmente são as pessoas que claramente usaram pacotes escritos pelo usuário para software estatístico, mas não os citam adequadamente, ou de modo algum, deixando de dar crédito aos autores. Fazer isso é particularmente importante quando os autores estão na academia e seus trabalhos dependem da publicação de artigos que são citados . (Talvez eu deva acrescentar que, na minha área, muitos dos culpados não são estatísticos.)
fonte
Meu Deus, tantas coisas vêm à mente ...
Regressão stepwise
Dividindo dados contínuos em grupos
Fornecendo valores p, mas nenhuma medida do tamanho do efeito
Descrevendo dados usando a média e o desvio padrão sem indicar se os dados eram mais ou menos simétricos e unimodais
Números sem legendas claras (essas barras de erro são erros padrão da média, ou desvios-padrão dentro dos grupos, ou o quê?)
fonte
Irene Stratton e colega publicaram um pequeno artigo sobre uma questão intimamente relacionada:
Stratton IM, Neil A. Como garantir que seu trabalho seja rejeitado pelo revisor estatístico . Medicina Diabética 2005; 22 (4): 371-373.
fonte
O código usado para gerar os resultados simulados não é fornecido. Depois de solicitar o código, ele exige trabalho adicional para que ele seja executado em um conjunto de dados gerado por um árbitro.
fonte
Plágio (teórico ou metodológico). Minha primeira resenha foi de fato um artigo que mostra muitas cópias / pastas não referenciadas de um artigo metodológico bem estabelecido publicado há 10 anos.
Acabei de encontrar alguns artigos interessantes sobre esse assunto: autoria e plágio na ciência .
Na mesma linha, acho a falsificação (de dados ou resultados) a pior de todas.
fonte
Quando pedimos aos autores
e que os autores realmente não respondem no caso (1) ou que os resultados incriminados em (2) desaparecem do MS.
fonte
Valores-p confusos e tamanho do efeito (ou seja, declarar que meu efeito é grande porque tenho um valor-p realmente pequeno).
Um pouco diferente da resposta de Stephan de excluir tamanhos de efeito, mas fornecer valores p. Concordo que você deve dar os dois (e espero entender a diferença!)
fonte
Não incluindo tamanhos de efeito.
P-ing em toda a pesquisa (eu tenho que creditar meu professor favorito da faculdade por essa linha).
Dando um número absurdo de dígitos (os machos ganharam 3,102019 libras a mais que as fêmeas)
Não incluindo números de página (que dificulta a revisão)
Números e tabelas incorretos
(como já mencionado - passo a passo e categorizando variáveis contínuas)
fonte
Quando eles não explicam suficientemente sua análise e / ou incluem erros simples que dificultam o cálculo do que realmente foi feito. Isso geralmente inclui jogar muito jargão, a título de explicação, que é mais ambíguo do que o autor parece perceber e também pode ser mal utilizado.
fonte
Usar linguagem causal para descrever associações em dados observacionais quando variáveis omitidas é quase certamente uma preocupação séria.
fonte
Quando os autores usam o único teste estatístico que conhecem (no meu campo, geralmente um teste t ou uma ANOVA), ad infinitum, independentemente de ser apropriado. Recentemente, revi um artigo em que os autores queriam comparar uma dúzia de grupos de tratamento diferentes, para que fizessem um teste t de duas amostras para cada par de tratamentos possível ...
fonte
Criando novas palavras para os conceitos existentes, ou vice-versa, usando os termos existentes para denotar algo diferente.
Alguns dos diferenciais terminológicos existentes existem há muito tempo na literatura: dados longitudinais em bioestatística versus dados em painel em econometria; indicadores de causa e efeito em sociologia vs. indicadores formativos e reflexivos em psicologia; etc. Eu ainda os odeio, mas pelo menos você pode encontrar alguns milhares de referências a cada uma delas em suas respectivas literaturas. A mais recente é toda essa linha de trabalho sobre gráficos acíclicos direcionados na literatura causal: a maior parte, se não toda, da teoria da identificação e estimativa nelas foi desenvolvida por economistas na década de 1950 sob o nome de equações simultâneas.
O termo que tem significado duplo, se não triplo, é "robusto", e os diferentes significados são frequentemente contraditórios. Erros padrão "robustos" não são robustos para valores extremos; além disso, eles não são robustos contra nada, exceto o desvio assumido do modelo, e geralmente têm um desempenho sombrio de amostras pequenas. Os erros padrão de White não são robustos contra correlações seriais ou de cluster; Erros padrão "robustos" no SEM não são robustos contra as especificações incorretas da estrutura do modelo (caminhos ou variáveis omitidos). Assim como na idéia do teste de significância da hipótese nula, é impossível apontar o dedo para alguém e dizer: "Você é responsável por confundir várias gerações de pesquisadores por cunhar esse conceito que realmente não se chama".
fonte
gllamm
que considera seus dados como dados hierárquicos / multiníveis, mas a maioria dos outros pacotes pensaria em várias medidas como variáveis / colunas e amostras como observações / linhas.Zero consideração de dados ausentes.
Muitas aplicações práticas usam dados para os quais existem pelo menos alguns valores ausentes. Isso certamente é verdade em epidemiologia. Dados ausentes apresentam problemas para muitos métodos estatísticos - incluindo modelos lineares. Os dados ausentes com modelos lineares geralmente são tratados através da exclusão de casos com dados ausentes em quaisquer covariáveis. Este é um problema, a menos que dados estejam faltando, sob a suposição de que os dados estão Faltando Completamente Aleatoriamente (MCAR).
Talvez 10 anos atrás, era razoável publicar resultados de modelos lineares sem considerar mais a falta. Eu certamente sou culpado disso. No entanto, conselhos muito bons sobre como lidar com dados ausentes com imputação múltipla estão agora amplamente disponíveis, assim como pacotes / modelos / bibliotecas / etc estatísticos. facilitar análises mais apropriadas sob premissas mais razoáveis quando houver falta.
fonte
Relatar efeitos que "atingiram o significado (p <0,10 por exemplo) e depois escrever sobre eles como se tivessem atingido um nível mais rigoroso e aceitável. Executando vários modelos de equações estruturais que não estavam aninhados e escrevendo sobre eles como se fossem Tomando uma estratégia analítica bem estabelecida e apresentando-a como se ninguém tivesse pensado em usá-la antes.Talvez isso se qualifique como plágio até o enésimo grau.
fonte
Eu recomendo os dois artigos a seguir:
Martin Bland:
Como perturbar o árbitro estatístico
Isso se baseia em uma série de palestras proferidas por Martin Bland, juntamente com dados de outros árbitros estatísticos ('uma amostra de conveniência com baixa taxa de resposta'). Termina com uma lista de 11 pontos de '[h] ow para evitar perturbar o árbitro estatístico'.
Stian Lydersen:
Revisão estatística : comentários freqüentes
Este artigo recente (publicado em 2014/2015) lista os 14 comentários de revisão mais comuns do autor, com base em aprox. 200 revisões estatísticas de artigos científicos (em uma revista específica). Cada comentário tem uma breve explicação do problema e instruções sobre como fazer a análise / relatório corretamente . A lista de referências citadas é um tesouro de trabalhos interessantes.
fonte
Fico muito (e mais frequentemente) aborrecido com a "validação", com o objetivo de erro de generalização de modelos preditivos em que os dados do teste não são independentes (por exemplo, medições tipicamente múltiplas por paciente nos dados, medidas fora da inicialização ou separações de validação cruzada não pacientes ).
Documentos ainda mais irritantes, que fornecem resultados tão falhos de validação cruzada, mais um conjunto de testes independente que demonstra o viés super-otimista da validação cruzada, mas nem uma única palavra de que o design da validação cruzada está errado ...
(Ficaria perfeitamente feliz se os mesmos dados fossem apresentados "sabemos que a validação cruzada deve dividir os pacientes, mas estamos presos a um software que não permite isso. Portanto, testamos um conjunto verdadeiramente independente de pacientes em teste. ")
(Também sei que o bootstrapping = reamostragem com substituição geralmente tem um desempenho melhor do que a validação cruzada = reamostragem sem substituição. No entanto, encontramos dados espectroscópicos (espectros simulados e configuração de modelo levemente artificial, mas espectros reais) que repetiram / iteraram a validação cruzada e a saída -of-bootstrap teve uma incerteza geral semelhante; oob teve mais preconceito, mas menos variação - para revisar, estou analisando isso de uma perspectiva muito pragmática: validação cruzada repetida x out-of-bootstrap não importa, desde que muitos documentos não divida o paciente nem relate / discuta / mencione a incerteza aleatória devido ao tamanho limitado da amostra de teste.)
Além de estar errado, isso também tem o efeito colateral de que as pessoas que fazem uma validação adequada geralmente precisam defender por que seus resultados são muito piores do que todos os outros resultados da literatura.
fonte
Usando "dados" em um sentido singular. Os dados SÃO, eles nunca são.
fonte
Para mim, de longe, é atribuir causa sem qualquer análise causal adequada ou quando há inferência causal inadequada.
Eu também odeio quando nenhuma atenção é dada à forma como os dados ausentes foram tratados. Também vejo muitos artigos em que os autores simplesmente realizam uma análise de caso completa e não mencionam se os resultados são generalizáveis para a população com valores ausentes ou como a população com valores ausentes pode ser sistematicamente diferente da população com dados completos.
fonte
Usando o Microsoft Word em vez do LaTeX.
fonte