Como irritar um árbitro estatístico?

102

Recentemente, fiz uma pergunta sobre princípios gerais em torno da revisão de estatísticas em artigos . O que eu gostaria agora de perguntar é o que o irrita particularmente ao revisar um artigo, ou seja, qual é a melhor maneira de realmente irritar um árbitro estatístico!

Um exemplo por resposta, por favor.

references referee csgillespie
fonte

Estende-se às justificativas recebidas em resposta a uma revisão inicial (onde foram feitas revisões menores e / ou principais)?

chl

@chl: Sim, por que não?

csgillespie

69

O que mais me irrita pessoalmente são as pessoas que claramente usaram pacotes escritos pelo usuário para software estatístico, mas não os citam adequadamente, ou de modo algum, deixando de dar crédito aos autores. Fazer isso é particularmente importante quando os autores estão na academia e seus trabalhos dependem da publicação de artigos que são citados . (Talvez eu deva acrescentar que, na minha área, muitos dos culpados não são estatísticos.)

uma parada
fonte

2

+1 para mim. Isso me frustra, especialmente quando eles citam a coisa errada e eu forneci os detalhes relevantes sobre como citar os pacotes

Gavin Simpson

3

Pergunta: ao citar um pacote, você cita a vinheta (se houver) ou o próprio pacote?

precisa

7

@Brandon: se o autor do pacote se preocupa o suficiente para guiá-lo, então eles deram a resposta de uma forma que vai ser pego por citação ( "some_package")

Ben Bolker

2

Além de ter um documento de referência, o que não é tão fácil de fazer, a maneira mais fácil de obter citações é deixar pelo menos um erro no seu artigo. Em seguida, você pode publicar uma correção, que cita o artigo original. Deixe um erro na correção e você poderá publicar uma correção que faça referência à correção original e ao artigo original (vi um aluno do 1º ano do ensino médio). O número de citações cresce como um processo O (N ^ 2), onde N é o número de correções.

Mark L. Stone

67

Meu Deus, tantas coisas vêm à mente ...

Regressão stepwise
Dividindo dados contínuos em grupos
Fornecendo valores p, mas nenhuma medida do tamanho do efeito
Descrevendo dados usando a média e o desvio padrão sem indicar se os dados eram mais ou menos simétricos e unimodais
Números sem legendas claras (essas barras de erro são erros padrão da média, ou desvios-padrão dentro dos grupos, ou o quê?)

Stephan Kolassa
fonte

5

Estou um pouco curioso sobre a bala de regressão gradual. O que torna a regressão gradual tão ruim? É a questão da dragagem de dados e de múltiplas comparações?

Christopher Aden

17

O problema é que os procedimentos passo a passo invalidam completamente todas as premissas e condições prévias para estatísticas inferenciais "normais" baseadas em valores de p, que são então muito tendenciosas (para baixo, para serem "mais significativas"). Então, basicamente, a resposta é "sim", com a ressalva de que alguém poderia, em princípio, corrigir todas essas múltiplas comparações (mas que eu nunca vi fazer). Acredito firmemente que essa é a razão mais importante pela qual vejo tantas pesquisas em psicologia que não podem ser replicadas - o que, por sua vez, leva a um enorme desperdício de recursos.

Stephan Kolassa

10

@ Stephan: Eu concordo, passo a passo é uma má idéia. Embora, embora eles ainda não tenham chegado aos métodos psicológicos, há uma variedade de procedimentos de seleção que se ajustam ao viés relacionado ao ajuste excessivo, ajustando estimativas e erros padrão. Isso normalmente não é pensado como um problema de múltiplas comparações. Eles são conhecidos como métodos de encolhimento. Veja minha resposta neste tópico < stats.stackexchange.com/questions/499/… > e "Estratégias de modelagem de regressão" de Harrell ou Tibshirani no laço.

Brett

5

@Brett Magill: +1 sobre isso, e sim, eu sei sobre encolhimento e laço. Agora, tudo o que preciso é de uma maneira de convencer os psicólogos de que isso faz sentido ... mas as pessoas têm lutado com um sucesso muito limitado apenas para fazer com que os psicólogos relatem intervalos de confiança, por isso não estou muito otimista sobre a aceitação do encolhimento dos psicólogos no próximo vinte anos.

Stephan Kolassa

10

Eu também argumentaria que, em psicologia, maximizar a previsão não é tipicamente o objetivo teórico, mas a regressão passo a passo tem a ver com maximizar a previsão, embora de uma maneira quase parcimoniosa. Portanto, normalmente há uma desconexão entre procedimento e pergunta.

Jeromy Anglim

41

Irene Stratton e colega publicaram um pequeno artigo sobre uma questão intimamente relacionada:

Stratton IM, Neil A. Como garantir que seu trabalho seja rejeitado pelo revisor estatístico . Medicina Diabética 2005; 22 (4): 371-373.

parada
fonte

O link está quebrado.

Oliver Angelil

onlinelibrary.wiley.com/doi/full/10.1111/…

vkehayas

32

O código usado para gerar os resultados simulados não é fornecido. Depois de solicitar o código, ele exige trabalho adicional para que ele seja executado em um conjunto de dados gerado por um árbitro.

user603
fonte

2

E é mal formatado, descomentado e usa nomes indecifráveis de variáveis e funções. Ooooh sim.

precisa saber é o seguinte

30

Plágio (teórico ou metodológico). Minha primeira resenha foi de fato um artigo que mostra muitas cópias / pastas não referenciadas de um artigo metodológico bem estabelecido publicado há 10 anos.

Acabei de encontrar alguns artigos interessantes sobre esse assunto: autoria e plágio na ciência .

Na mesma linha, acho a falsificação (de dados ou resultados) a pior de todas.

Chl
fonte

20

Me lembra que em meus primeiros dias como um árbitro eu passei muito tempo demais rever um documento estatístico que acabou por ser rejeitada por essa revista em particular, mas os outros árbitros e sugeri uma aplicação mais útil para o método, e eu também esboçou uma prova algébrica substituir um estudo de simulação insatisfatório no manuscrito. Desde então, os autores obtiveram dois trabalhos publicados. Não estou chateado com isso, mas um reconhecimento como "agradecemos aos árbitros de uma versão anterior do artigo por comentários úteis" teria sido bom.

onestop 20/10/10

1

@onestop Sim, posso imaginar como decepcionante tal situação pode ser ...

chl

24

Algumas semanas atrás, recebi um artigo para revisar e descobri que 85% dele havia sido publicado em outra revista ... pelos mesmos autores. Também isso ainda é considerado plágio. Nos últimos anos, enviei rotineiramente pedaços de papéis - especialmente resumos, introduções e conclusões - aos mecanismos de busca da Web antes de fazer qualquer revisão. Quero ter certeza de que o trabalho é original antes de investir algum tempo na leitura.

whuber

7

+1, @whuber. Como editor de uma revista metodológica, muitas vezes tenho esse trabalho difícil de descobrir se a contribuição (em regra, de autores bem estabelecidos; os autores mais jovens ainda não chegaram a essa trajetória) justifica a publicação, pois todos eles ' O que fizemos foi remontar de maneira diferente os oito blocos de Lego que compunham os cinco documentos anteriores. Isso me leva a questionar a contribuição nos cinqüenta trabalhos anteriores estes autores publicados, também :(.

Stask

26

Quando pedimos aos autores

comentário secundário sobre uma ideia que temos (nesse sentido, isso não é considerado um motivo para rejeitar o artigo, mas apenas para garantir que os autores possam discutir outro ponto de vista), ou
resultados pouco claros ou contraditórios,

e que os autores realmente não respondem no caso (1) ou que os resultados incriminados em (2) desaparecem do MS.

chl
fonte

7

Resultados que desaparecem misteriosamente devem ser rejeição automática. Tenho certeza de que isso acontece muito "nos bastidores" (ou seja, antes do envio do artigo), mas essa é uma evidência clara de "escolha" que os leitores normais do jornal nunca saberiam.

Macro

3

Outro motivo para um sistema aberto de revisão por pares.

Fmark3 /

24

Valores-p confusos e tamanho do efeito (ou seja, declarar que meu efeito é grande porque tenho um valor-p realmente pequeno).

Um pouco diferente da resposta de Stephan de excluir tamanhos de efeito, mas fornecer valores p. Concordo que você deve dar os dois (e espero entender a diferença!)

Andy W
fonte

23

Não incluindo tamanhos de efeito.

P-ing em toda a pesquisa (eu tenho que creditar meu professor favorito da faculdade por essa linha).

Dando um número absurdo de dígitos (os machos ganharam 3,102019 libras a mais que as fêmeas)

Não incluindo números de página (que dificulta a revisão)

Números e tabelas incorretos

(como já mencionado - passo a passo e categorizando variáveis contínuas)

Peter Flom
fonte

7

(+1) riu alto em "Dando um número absurdo de dígitos (os machos ganharam 3,102019 libras a mais que as fêmeas)".

Macro

19

Quando eles não explicam suficientemente sua análise e / ou incluem erros simples que dificultam o cálculo do que realmente foi feito. Isso geralmente inclui jogar muito jargão, a título de explicação, que é mais ambíguo do que o autor parece perceber e também pode ser mal utilizado.

anonia
fonte

Concordo - lutar para entender o que o (s) autor (es) quis dizer antes de avaliar o conteúdo científico é realmente irritante.

Laurent

5

Concordo, mas acho ainda mais irritante quando um revisor diz para você omitir (ou passar a fornecer materiais) o que são, realisticamente, detalhes muito cruciais sobre a análise. Esse problema faz com que muitos trabalhos de ciências / ciências sociais que fazem a análise um pouco mais complicada sejam bastante enigmáticos a esse respeito.

Macro

16

Usar linguagem causal para descrever associações em dados observacionais quando variáveis omitidas é quase certamente uma preocupação séria.

Michael Bishop
fonte

3

Concordo que os pesquisadores devem entender as responsabilidades dos projetos de pesquisa observacional, especialmente aqueles relacionados a variáveis omitidas, mas não creio que evitar a linguagem causal faça isso. Veja o trabalho de Hubert Blalock, em particular seu livro Causal Inferences in Non-experimental Research para um argumento mais detalhado em defesa do uso da linguagem causal.

Andy W

3

(+1) Esse pode ser o meu maior problema com pesquisas epidemiológicas.

Macro

14

Quando os autores usam o único teste estatístico que conhecem (no meu campo, geralmente um teste t ou uma ANOVA), ad infinitum, independentemente de ser apropriado. Recentemente, revi um artigo em que os autores queriam comparar uma dúzia de grupos de tratamento diferentes, para que fizessem um teste t de duas amostras para cada par de tratamentos possível ...

Freya Harrison
fonte

13

Criando novas palavras para os conceitos existentes, ou vice-versa, usando os termos existentes para denotar algo diferente.

Alguns dos diferenciais terminológicos existentes existem há muito tempo na literatura: dados longitudinais em bioestatística versus dados em painel em econometria; indicadores de causa e efeito em sociologia vs. indicadores formativos e reflexivos em psicologia; etc. Eu ainda os odeio, mas pelo menos você pode encontrar alguns milhares de referências a cada uma delas em suas respectivas literaturas. A mais recente é toda essa linha de trabalho sobre gráficos acíclicos direcionados na literatura causal: a maior parte, se não toda, da teoria da identificação e estimativa nelas foi desenvolvida por economistas na década de 1950 sob o nome de equações simultâneas.

O termo que tem significado duplo, se não triplo, é "robusto", e os diferentes significados são frequentemente contraditórios. Erros padrão "robustos" não são robustos para valores extremos; além disso, eles não são robustos contra nada, exceto o desvio assumido do modelo, e geralmente têm um desempenho sombrio de amostras pequenas. Os erros padrão de White não são robustos contra correlações seriais ou de cluster; Erros padrão "robustos" no SEM não são robustos contra as especificações incorretas da estrutura do modelo (caminhos ou variáveis omitidos). Assim como na idéia do teste de significância da hipótese nula, é impossível apontar o dedo para alguém e dizer: "Você é responsável por confundir várias gerações de pesquisadores por cunhar esse conceito que realmente não se chama".

StasK
fonte

1

Tenho que admitir que cometi os dois pecados: descrevo meus dados como "tendo uma estrutura hierárquica: quando tenho níveis com relações 1: n (muitas medições de cada amostra, várias amostras por paciente). Em algum momento, aprendi acidentalmente que isso é chamada de estrutura de dados "agrupada" - agora eu uso os dois termos, mas ainda não sei como encontrei esse termo, procurei desesperadamente a palavra para descrever minha estrutura de dados ... Por outro lado: Eu uso técnicas que são chamados de classificação macio em sensoriamento remoto meu campo (quimiometria) usa-lo com significado bem diferente..

cbeleites

2

Tudo bem - você pode adicionar "multinível" à sua lista de maneiras de se referir a essa estrutura também. "Agrupado" geralmente significa que as observações são conhecidas por serem correlacionadas, mas ninguém se preocupa em modelar essa correlação, uma vez que ela não é de interesse primário, e evita métodos que sejam robustos a essa correlação, como o GEE. O que você tem é algo como medidas repetidas MANOVA. Há um pacote Stata gllammque considera seus dados como dados hierárquicos / multiníveis, mas a maioria dos outros pacotes pensaria em várias medidas como variáveis / colunas e amostras como observações / linhas.

StasK 11/04

Obrigado pela contribuição. Bem, hoje em dia eu naturalmente perguntaria aqui como é chamado ... Não são exatamente medidas repetidas: geralmente eu medo um número (ordem de magnitude: entre 10 ^ 2 e 10 ^ 4) pontos diferentes na amostra para produza mapas de cores falsas de diferentes constituintes e cada medida já possui 10 ^ 2 - 10 ^ 3 observações (comprimentos de onda no espectro). Dentro de cada amostra, muitos espectros são altamente correlacionados, mas não todos: as amostras não são homogêneas. ...

cbeleites

1

... Sua descrição de "agrupado" parece muito com o que fazemos. Mas tomo o cuidado de dividir as amostras para validação, digo que não tenho nenhuma idéia sobre o tamanho efetivo da amostra (além disso, é pelo menos o número de amostras reais envolvidas) e, às vezes, mostro que todas as medidas de cada amostra realmente ajuda no treinamento do modelo.

Cbeleites

1

Dados interessantes e desafiadores, com certeza.

StasK

11

Zero consideração de dados ausentes.

Muitas aplicações práticas usam dados para os quais existem pelo menos alguns valores ausentes. Isso certamente é verdade em epidemiologia. Dados ausentes apresentam problemas para muitos métodos estatísticos - incluindo modelos lineares. Os dados ausentes com modelos lineares geralmente são tratados através da exclusão de casos com dados ausentes em quaisquer covariáveis. Este é um problema, a menos que dados estejam faltando, sob a suposição de que os dados estão Faltando Completamente Aleatoriamente (MCAR).

Talvez 10 anos atrás, era razoável publicar resultados de modelos lineares sem considerar mais a falta. Eu certamente sou culpado disso. No entanto, conselhos muito bons sobre como lidar com dados ausentes com imputação múltipla estão agora amplamente disponíveis, assim como pacotes / modelos / bibliotecas / etc estatísticos. facilitar análises mais apropriadas sob premissas mais razoáveis quando houver falta.

D L Dahly
fonte

1

No espírito de tentar educar, você pode elaborar mais? O que você considera considerar - admitir que existe ou ajustar a análise estatística em face dela (por exemplo, imputação). Quando aplicável, tento incluir supp. tabelas de valores ausentes por covariáveis de interesse, mas não está claro se isso é suficiente para "consideração" por essa observação.

Andy W

8

Relatar efeitos que "atingiram o significado (p <0,10 por exemplo) e depois escrever sobre eles como se tivessem atingido um nível mais rigoroso e aceitável. Executando vários modelos de equações estruturais que não estavam aninhados e escrevendo sobre eles como se fossem Tomando uma estratégia analítica bem estabelecida e apresentando-a como se ninguém tivesse pensado em usá-la antes.Talvez isso se qualifique como plágio até o enésimo grau.

EstatísticasDoc Consulting
fonte

Talvez seja reinventar a roda ao invés de plágio?

gerrit

7

Eu recomendo os dois artigos a seguir:

Martin Bland:
Como perturbar o árbitro estatístico
Isso se baseia em uma série de palestras proferidas por Martin Bland, juntamente com dados de outros árbitros estatísticos ('uma amostra de conveniência com baixa taxa de resposta'). Termina com uma lista de 11 pontos de '[h] ow para evitar perturbar o árbitro estatístico'.

Stian Lydersen:
Revisão estatística : comentários freqüentes
Este artigo recente (publicado em 2014/2015) lista os 14 comentários de revisão mais comuns do autor, com base em aprox. 200 revisões estatísticas de artigos científicos (em uma revista específica). Cada comentário tem uma breve explicação do problema e instruções sobre como fazer a análise / relatório corretamente . A lista de referências citadas é um tesouro de trabalhos interessantes.

Karl Ove Hufthammer
fonte

A lista de Lydersen é interessante. Acho que discordo de alguns deles. . .

StatsStudent

6

Fico muito (e mais frequentemente) aborrecido com a "validação", com o objetivo de erro de generalização de modelos preditivos em que os dados do teste não são independentes (por exemplo, medições tipicamente múltiplas por paciente nos dados, medidas fora da inicialização ou separações de validação cruzada não pacientes ).

Documentos ainda mais irritantes, que fornecem resultados tão falhos de validação cruzada, mais um conjunto de testes independente que demonstra o viés super-otimista da validação cruzada, mas nem uma única palavra de que o design da validação cruzada está errado ...

(Ficaria perfeitamente feliz se os mesmos dados fossem apresentados "sabemos que a validação cruzada deve dividir os pacientes, mas estamos presos a um software que não permite isso. Portanto, testamos um conjunto verdadeiramente independente de pacientes em teste. ")

(Também sei que o bootstrapping = reamostragem com substituição geralmente tem um desempenho melhor do que a validação cruzada = reamostragem sem substituição. No entanto, encontramos dados espectroscópicos (espectros simulados e configuração de modelo levemente artificial, mas espectros reais) que repetiram / iteraram a validação cruzada e a saída -of-bootstrap teve uma incerteza geral semelhante; oob teve mais preconceito, mas menos variação - para revisar, estou analisando isso de uma perspectiva muito pragmática: validação cruzada repetida x out-of-bootstrap não importa, desde que muitos documentos não divida o paciente nem relate / discuta / mencione a incerteza aleatória devido ao tamanho limitado da amostra de teste.)

Além de estar errado, isso também tem o efeito colateral de que as pessoas que fazem uma validação adequada geralmente precisam defender por que seus resultados são muito piores do que todos os outros resultados da literatura.

cbeleites
fonte

1

Não tenho certeza se você quis dizer isso, mas o bootstrap "otimismo" é uma das melhores maneiras de validar um modelo, e suas amostras de treinamento e teste se sobrepõem.

Frank Harrell

1

@ Frank Harrell - Não tenho certeza se entendi. Talvez a dificuldade seja que, na quimiometria, a "validação de um modelo preditivo" sempre se refere ao desempenho de casos novos, desconhecidos e futuros (no exemplo: diagnosticar novos pacientes). Uso validação cruzada fora da inicialização ou repetida / iterada o tempo todo. Você pode explicar qual é a vantagem da sobreposição de conjuntos de teste e trem em comparação com a divisão no nível do paciente (presumo que "sobreposição" significa dividir medições para que as medições de teste e treinamento possam pertencer ao mesmo paciente, sempre falando sobre um modelo entre pacientes )?

Cbeleites

... E sim, alguns pontos da validação do modelo podem ser respondidos sem dividir os dados em casos distintos de teste e treinamento (por exemplo, estabilidade do modelo em termos de coeficientes). Mas já modele a estabilidade wrt. as previsões devem ser medidas usando pacientes desconhecidos (desconhecido: nunca apareceu no processo de construção do modelo, incluindo qualquer pré-processamento baseado em dados que leve em consideração todos os casos). Na verdade, para uma quantificação tradicional em quimiometria, a validação tem etapas que necessitam de dados de ensaio medido de forma independente: ...

cbeleites

a boa prática exige que o operador desconhecido do instrumento e uma característica importante do método analítico seja determinada durante a validação é a frequência com que a calibração precisa ser repetida (ou mostrando que o desvio instrumental é insignificante durante um certo período de tempo) - alguns os autores até falam sobre um "abuso de reamostragem" que leva à negligência de tais conjuntos de testes independentes .

Cbeleites

1

Se o equipamento ou as técnicas de medição precisam de validação, é necessária uma amostra independente. Mas um erro comum é usar a divisão de dados para tentar simular uma validação independente. Ainda é uma validação interna. Para responder à pergunta @cbeleites acima, as amostras sobrepostas envolvidas no bootstrap resultarão em estimativas mais precisas do desempenho futuro do modelo do que na divisão de dados na maioria dos conjuntos de dados que se pode ver. Eu tive um desempenho ruim da divisão de dados com n = 17.000 e taxa de eventos de 0,30.

31712 Frank

4

Usando "dados" em um sentido singular. Os dados SÃO, eles nunca são.

Peter
fonte

2

Provavelmente um estatístico francês;)

Stéphane Laurent

9

Devo admitir que recentemente abandonei o uso plural de dados depois de me agarrar a eles por 10 anos ou mais. Geralmente, escrevo para o público não técnico e fiquei preocupada por ter me sentido pomposo. A APA parece ainda ter uma leitura estrita de ser plural, mas, curiosamente, a Royal Statistical Society não parece ter uma visão particular. Há uma discussão interessante aqui: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular

Chris Beeley

1

Eu não sou falante de inglês, mas o problema com trabalhos como "dados" ou "mídia" no singular é que o inglês emprestou muitas outras palavras latinas e você precisa usar todas as palavras latinas de maneira consistente. Qual é o próximo? "Currículo é" ou "Currículo é"? "Médias são"? Se "dados" é latino, então é plural. Fim da discussão. Não importa quantas pessoas querem ignorá-lo agora.

Fran

Talvez eu esteja usando mal, mas alterno entre singular e plurar, dependendo do contexto.

StatsStudent

Como a palavra "dado" é baixa e apenas em circunstâncias especializadas, penso que a palavra "dados" é algo equivalente à palavra "matilha" em relação a "lobos". Certamente é aceitável usar a palavra 'matilha' no singular para descrever vários lobos. A palavra 'Dados' está gradualmente se transformando em seu próprio substantivo coletivo ...

Robert de Graaf

3

Para mim, de longe, é atribuir causa sem qualquer análise causal adequada ou quando há inferência causal inadequada.

Eu também odeio quando nenhuma atenção é dada à forma como os dados ausentes foram tratados. Também vejo muitos artigos em que os autores simplesmente realizam uma análise de caso completa e não mencionam se os resultados são generalizáveis para a população com valores ausentes ou como a população com valores ausentes pode ser sistematicamente diferente da população com dados completos.

StatsStudent
fonte

3

Usando o Microsoft Word em vez do LaTeX.

Simone
fonte

Como irritar um árbitro estatístico?

Respostas: