Como exibir barras de erro para experiências cruzadas (emparelhadas)

19

O cenário a seguir se tornou o FAQ mais freqüente do trio de investigador (I), revisor / editor (R, não relacionado ao CRAN) e eu (M) como criador de plotagem. Podemos supor que (R) é o típico revisor médico do chefão, que sabe apenas que cada parcela deve ter uma barra de erro; caso contrário, ela está errada. Quando um revisor estatístico está envolvido, os problemas são muito menos críticos.

Cenário

Em um típico estudo farmacológico cruzado, dois medicamentos A e B são testados quanto ao seu efeito no nível de glicose. Cada paciente é testado duas vezes em ordem aleatória e sob a suposição de que não haja transporte. O endpoint primário é a diferença entre glicose (BA), e assumimos que um teste t pareado é adequado.

(I) quer um gráfico que mostre os níveis absolutos de glicose nos dois casos. Ele teme (R) o desejo de barras de erro e pede erros padrão nos gráficos de barras. Não vamos começar a guerra dos gráficos de barras aqui.

gráficos de barras e glicose SE para dois tratamentos

(I): Isso não pode ser verdade. As barras se sobrepõem e temos p = 0,03? Não foi isso que aprendi no ensino médio.

(M): Temos um design emparelhado aqui. As barras de erro solicitadas são totalmente irrelevantes, o que conta é o SE / CI das diferenças emparelhadas, que não são mostradas no gráfico. Se eu tivesse uma escolha e não houvesse muitos dados, eu preferiria o seguinte gráfico

Linhas unidas mostram o emparelhamento, pontilham os valores originais

Adicionado 1: este é o gráfico de coordenadas paralelas mencionado em várias respostas

(M): As linhas mostram o emparelhamento e a maioria das linhas sobe, e essa é a impressão certa, porque a inclinação é o que conta (ok, isso é categórico, mas mesmo assim).

(I): Essa imagem é confusa. Ninguém entende isso e não possui barras de erro (R está à espreita).

(M): Também podemos adicionar outro gráfico que mostre o intervalo de confiança relevante da diferença. A distância da linha zero dá uma impressão do tamanho do efeito.

(I): Ninguém faz

(R): E desperdiça árvores preciosas

(M): (Como um bom alemão): Sim, é preciso apontar as árvores. No entanto, eu uso isso (e nunca o publico) quando temos vários tratamentos e múltiplos contrastes.

intervalo de confiança da diferença

Alguma sugestão ? O código R está abaixo, se você deseja criar um gráfico.

# Graphics for Crossover experiments
library(ggplot2)
library(plyr)
theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines")))
n = 20
effect = 5 
set.seed(4711)
glu0 = rnorm(n,120,30)
glu1 = glu0 + rnorm(n,effect,7)
dt = data.frame(patient = rep(paste0("P",10:(9+n))),              
                treatment = rep(c("A","B"), each=n),glucose = c(glu0,glu1))

dt1 = ddply(dt,.(treatment), function(x){
  data.frame(glucose = mean(x$glucose), se = sqrt(var(x$glucose)/nrow(x)) )})

tt = t.test(glucose~treatment,paired=TRUE,data=dt,conf.int=TRUE)
dt2 = data.frame(diff = -tt$estimate,low=-tt$conf.int[2], up=-tt$conf.int[1])
p = paste("p =",signif(tt$p.value,2))

png(height=300,width=300)
ggplot(dt1, aes(x=treatment, y=glucose, fill=treatment))+      
  geom_bar(stat="identity")+  
  geom_errorbar(aes(ymin=glucose-se, ymax=glucose+se),size=1., width=0.3)+
  geom_text(aes(1.5,150),label=p,size=6)

ggplot(dt,aes(x=treatment,y=glucose, group=patient))+ylim(0,190)+
  geom_line()+geom_point(size=4.5)+
  geom_text(aes(1.5,60),label=p,size=6)

ggplot(dt2,aes(x="",y=diff))+
  geom_errorbar(aes(ymin=low,ymax=up),size=1.5,width=0.2)+ 
  geom_text(aes(1,-0.8),label=p,size=6)+
  ylab("95% CI of difference glucose B-A")+  ylim(-10,10)+
  theme(panel.border=element_blank(), panel.grid.major.x=element_blank(),
         panel.grid.major.y=element_line(size=1,colour="grey88"))

dev.off()
Dieter Menne
fonte
Oh meu Deus @ dieter-menne, ótima pergunta! Depende muito do tipo de periódico ao qual você submete o artigo. Vou ficar longe das guerras dos gráficos, mas adoro os gráficos 2 e 3: tanta informação em tão pouco espaço.
doug.numbers
4
Masson e Loftus (2003) são uma referência frequentemente dada. Eles mostram gráficos de exemplo nos quais exibem o IC da diferença em um segundo painel do mesmo gráfico. Se isso vai fazer a todos na feliz circo Eu não sei (eu sinto por você embora!)
Andy W
Obrigado, @AndyW, pela referência. É direto ao ponto, mas tem um problema: é da psicologia. Existem muitos outros artigos bons sobre o assunto, de psicólogos que têm um histórico estatístico muito melhor em comparação com revisores médicos. Eu gostaria de encontrar algum guia de jornal de alto escalão sobre o assunto, essa é a única espada afiada que eu poderia segurar.
Dieter Menne

Respostas:

17

Você está totalmente correto ao supor que as barras de erro que representam o erro padrão da média são totalmente inapropriadas para projetos dentro do assunto. No entanto, a questão da sobreposição de barras de erro e importância é outro tópico, ao qual voltarei ao final desta lista de referências comentadas.

Existe uma rica literatura da Psicologia sobre intervalos de confiança dentro do assunto ou barras de erro que fazem exatamente o que você deseja. O trabalho de referência é claramente:

Loftus, GR, & Masson, MEJ (1994). Usando intervalos de confiança em projetos dentro do assunto . Psychonomic Bulletin & Review , 1 (4), 476-490. doi: 10.3758 / BF03210951

No entanto, o problema deles é que eles usam o mesmo termo de erro para todos os níveis de um fator dentro do assunto. Isso não parece ser um grande problema para o seu caso (2 níveis). Mas existem abordagens mais modernas para resolver esse problema. Mais notavelmente:

Franz, V. e Loftus, G. (2012). Erros padrão e intervalos de confiança em projetos dentro dos sujeitos: Generalizando Loftus e Masson (1994) e evitando o viés de contas alternativas . Boletim Psiconômico e Revisão , 1–10. doi: 10.3758 / s13423-012-0230-1

Baguley, T. (2011). Cálculo e representação gráfica de intervalos de confiança dentro do sujeito para ANOVA. Métodos de pesquisa de comportamento . doi: 10.3758 / s13428-011-0123-7 [ pode ser encontrado aqui ]

Outras referências podem ser encontradas nos dois últimos artigos (que eu acho que valem a pena ser lidos).


Como os pesquisadores interpretam os ICs? Ruim de acordo com o seguinte artigo:

Belia, S., Fidler, F., Williams, J., & Cumming, G. (2005). Os pesquisadores não entendem os intervalos de confiança e as barras de erro padrão . Psychological Methods , 10 (4), 389–396. doi: 10.1037 / 1082-989X.10.4.389

Como devemos interpretar ICs sobrepostos e não sobrepostos?

Cumming, G. e Finch, S. (2005). Inferência pelo olho: intervalos de confiança e como ler imagens de dados . American Psychologist , 60 (2), 170–180. doi: 10.1037 / 0003-066X.60.2.170


Um pensamento final (embora isso não seja relevante para o seu caso): se você tiver um design de plotagem dividida (ou seja, fatores dentro e entre sujeitos) em uma plotagem, poderá esquecer todas as barras de erro. Eu (humildemente) recomendam a minha raw.means.plotfunção no pacote de R plotrix.

Henrik
fonte
2
Lista de referência muito útil. Cumming reuniu muitas de suas idéias em amazon.com/Understanding-New-Statistics-Meta-Analysis-ebook/dp/… (o que você quiser dizer sobre a expressão "as novas estatísticas", eu provavelmente concordo.)
Nick Cox
@amoeba O artigo de Baguley que cito usa a técnica do papel Morey.
Henrik
10

A questão não parece ser sobre barras de erro, mas sobre as melhores maneiras de plotar dados emparelhados.

Em essência, as barras de erro aqui são, no máximo, uma maneira de resumir a incerteza: elas não dizem e necessariamente não podem dizer muito sobre qualquer estrutura fina nos dados.

Gráficos de coordenadas paralelas - às vezes chamados de gráficos de perfil, um termo que significa coisas diferentes em diferentes campos - foram mencionados na pergunta. Os gráficos de dispersão básicos já foram sugeridos por @Ray Koopman.

Um gráfico de dispersão especializada popular aqui e há um lote de diferença (aqui , digamos) versus média (ou soma) ou . Na medicina, isso é geralmente conhecido como um (talvez porque tenha sido usado anteriormente por Oldham) e, nas estatísticas, é geralmente conhecido como um gráfico de diferença de média de Tukey.( A + B ) / 2 A + BUMA-B(UMA+B)/2UMA+B

Outra fonte para esse enredo é Neyman, J., Scott, EL e Shane, CD 1953. Sobre a distribuição espacial de galáxias: um modelo específico. Astrophysical Journal 117: 92–133.

Em termos gerais, essas tramas se assemelham à idéia de traçar resíduos versus ajustados, também popularizada por Tukey e seu cunhado Anscombe.

A idéia principal de tais plotagens é que a linha horizontal sem diferença é naturalmente equivalente à linha de igualdade , mas geralmente é mais fácil psicologicamente trabalhar com uma linha de referência horizontal. Além disso, se e são amplamente semelhantes, um gráfico de dispersão usa grande parte de seu espaço para enfatizar esse fato, enquanto a estrutura das diferenças deve ser de maior interesse.A = B A BUMA-B=0 0UMA=BUMAB

Um projeto negligenciado é o gráfico de linhas paralelas de McNeil, DR 1992. Na representação gráfica de dados emparelhados. American Statistician 46: 307–310. Isso também é discutido nas duas referências abaixo.

Revisões vinculadas ao Stata, com várias referências, estão em

2004, gráficos de acordo e desacordo. Stata Journal 4: 329-349.

.pdf acessível em http://www.stata-journal.com/sjpdf.html?articlenum=gr0005

Gráficos emparelhados, paralelos ou de perfil para alterações, correlações e outras comparações. Stata Journal 9: 621-639.

.pdf acessível em http://www.stata-journal.com/sjpdf.html?articlenum=gr0041

Usuários que não são da Stata devem poder pular e cantarolar o código da Stata enquanto trabalham como implementar os gráficos em seu próprio software favorito.

Em todos os casos, se a razão e for de interesse e não de diferença, exatamente as mesmas idéias devem ser usadas, mas empregando escalas logarítmicas.BUMAB

Nick Cox
fonte
4

Tente um gráfico de dispersão dos pontos individuais (A, B). A maioria deles deve estar em apenas um lado da diagonal (a linha A = B). Existem dois análogos de barras de erro. O convencional, equivalente a um IC para a diferença média, seria uma faixa de confiança para a diferença média. A banda seria a região entre duas linhas, ambas paralelas à diagonal. Um teste t emparelhado seria significativo se, e somente se, as duas bordas da banda estiverem do mesmo lado da diagonal.

Um análogo da barra de erro mais conservador seria uma elipse de confiança para o centróide.

Ray Koopman
fonte
1
@ dieter-menne: A química clínica seria médica o suficiente? Você deve encontrar muitos de sobre lá. O papel é 2d, os dados emparelhados são 2d, parece uma situação muito adequada para mim ... Isso permitiria uma dimensão adicional (formato ou cor do símbolo) indicando quem recebeu o tratamento A primeiro e quem começou com o tratamento B (para que você possa verificar se não há realmente nenhuma diferença entre esses dois grupos) c m e t h o d UmcmethodBcmethodUMA
cbeleites suportes Monica
Não, cl. - :) A química clínica é muito sofisticada. Será que você adicionou alguma referência em "lá"; Não tenho certeza de que papel você está falando.
Dieter Menne
4

Resumo preliminar:

Masson / Loftus é muito exaustivo e não é uma leitura fácil para meus colegas médicos que não aceitariam algo como uma "interação". Eles também têm algumas sugestões para comparações múltiplas, que mostram que os intervalos de confiança aos pares são difíceis de ilustrar quando não se deseja simplificar muito.

Masson Loftus

Não gosto desse estilo: as barras com barras de erro parecem excelentes no milênio. No entanto, eles também usam um estilo um pouco mais elegante:

Masson Loftus sem barras

Cumming / Finch e Belia et al. são leituras obrigatórias. A primeira é a escolha perfeita para dar ao seu amigo que estremece quando vê a palavra interação . Encomendei o livro de Cumming depois de ler esse artigo. O segundo mostra um teste que implementarei em Shiny para a próxima reunião de investigadores médicos.

Cumming / Finch

Gosto dessa trama, mesmo que exista um segundo eixo que nunca usei antes; verifique a contribuição de Henrik e de outras pessoas no StackOverflow para obter um método gráfico de base R para obtê-lo. Eu preferiria colocar o segundo eixo à esquerda da diferença para deixar absolutamente claro que os valores foram alterados e talvez adicionar um eixo de valor p.

Alguém da fração treliça / ggplot tirando uma foto? Todas as soluções fornecidas são gráficos básicos e não são passíveis de painel / facetável.

No entanto: observe que os comentários e os artigos são principalmente do departamento de psicologia (e @cbeleites de hardcore hardcore). Seria bom receber comentários de revisores de revistas médicas.

Dieter Menne
fonte
0

Por que não apenas traçar a diferença * para cada paciente? Você pode usar um histograma, um gráfico de caixa ou um gráfico de probabilidade normal e sobrepor um intervalo de confiança de 95% para a diferença.

  • Em alguns cenários, pode ser a diferença dos logaritmos. Ver, por exemplo, Patterson & Jones, "Bioequivalência e Estatística em Farmacologia Clínica", Chapman, 2006.
Emil Friedman
fonte
Por que não? Pode fornecer informações válidas, mas gráficos com pontos ou pares individuais não são realmente populares na pesquisa médica. É por isso que o enredo paralelo (que fornece mais informações) é tão impopular. Pesquisadores médicos desejam médias e "faixas normais" (o que quer que seja).
Dieter Menne