No que diz respeito ao boxplot entalhado, a referência de McGill et al [1] mencionada em sua pergunta contém detalhes bastante completos (nem tudo o que eu digo aqui é explicitamente mencionado lá, mas, no entanto, é suficientemente detalhado para descobrir isso).
O intervalo é robusto, mas baseado em gaussiano
O artigo cita o seguinte intervalo para entalhes (onde é a mediana da amostra e é o intervalo interquartil da amostra):MR
M±1.7×1.25R/(1.35N−−√)
Onde:
1.35 é um fator de conversão assintótico para transformar IQRs em estimativas de - especificamente, é aproximadamente a diferença entre o quantil 0,75 e o quantil 0,25 de um normal padrão; os quartis da população estão separados por cerca de 1,35 ; portanto, um valor em torno de deve ser uma estimativa consistente (assintoticamente imparcial) de (mais precisamente, cerca de 1,349).σσR/1.35σ
1.25 entra porque estamos lidando com o erro padrão assintótico da mediana e não da média. Especificamente, a variação assintótica da mediana da amostra é que é a altura da densidade na mediana. Para uma distribuição normal, é , portanto, o erro padrão assintótico da mediana da amostra é .14nf20f0f012π√σ≈0.3989σ12N√f0=π/2−−−√σ/N−−√≈1.253σ/N−−√
Como StasK menciona aqui , quanto menor o , mais duvidoso seria (substituindo sua terceira razão por uma sobre a razoabilidade de usar a distribuição normal em primeiro lugar.N
Combinando os dois acima, obtemos uma estimativa assintótica do erro padrão da mediana de cerca de . McGill e cols. Creditam isso a Kendall e Stuart (não me lembro se a fórmula específica ocorre ou não, mas os componentes serão).1.25R/(1.35N−−√)
Então, tudo o que resta a discutir é o fator de 1,7.
Observe que se comparássemos uma amostra a um valor fixo (digamos uma mediana hipotética), usaríamos 1,96 para um teste de 5%; consequentemente, se tivéssemos dois erros padrão muito diferentes (um relativamente grande, um muito pequeno), esse seria o fator a ser usado (pois, se o nulo fosse verdadeiro, a diferença seria quase inteiramente devida à variação do erro de maior erro padrão e o pequeno poderia - aproximadamente - ser tratado como efetivamente corrigido).
Por outro lado, se os dois erros padrão fossem os mesmos, 1,96 seria um fator muito grande, uma vez que os dois conjuntos de entalhes entram nele - para que os dois conjuntos de entalhes falhem sobrepostos, estamos adicionando um de cada. Isso tornaria o fator correto assintoticamente.1.96/2–√≈1.386
Em algum lugar intermediário, temos 1,7 como um fator de compromisso aproximado. McGill et al o descrevem como "empiricamente selecionado". Ele chega perto de assumir uma proporção específica de variações, então meu palpite (e nada mais é do que isso) é que a seleção empírica (presumivelmente com base em alguma simulação) estava entre um conjunto de razões de valor arredondado para as variações (como 1: 1, 2: 1,3: 1, ...), dos quais o "melhor compromisso" da proporção foi então conectado a arredondado para dois algarismos . Pelo menos é uma maneira plausível de acabar bem perto de 1,7.rr:11.96/1+1/r−−−−−−√
Juntando todos eles (1.35,1.25 e 1.7), obtém-se cerca de 1,57. Algumas fontes obtêm 1,58 computando o 1,35 ou o 1,25 (ou ambos) com mais precisão, mas como um compromisso entre 1,386 e 1,96, esse 1,7 nem sequer é preciso para dois números significativos (é apenas um valor de comprometimento aproximado), portanto, a precisão adicional é inútil (eles podem ter acabado de arredondar a coisa toda para 1,6 e acabar com ela).
Observe que não há ajuste para várias comparações em qualquer lugar aqui.
Existem algumas analogias distintas nos limites de confiança para uma diferença no HSD de Tukey-Kramer :
y¯i∙−y¯j∙±qα;k;N−k2–√σˆε1ni+1nj−−−−−−−√
Mas note que
este é um intervalo combinado, não duas contribuições separadas para uma diferença (portanto, temos um termo em em vez das duas que contribuem separadamente e e assumimos variância constante (por isso não estamos lidando com o compromisso com o - quando podemos ter variações muito diferentes - em vez do caso assintótico de )c.1ni+1nj−−−−−−√k.1ni−−√k.1nj−−√1.961.96/2–√
é baseado em meios, não medianas (portanto, não 1,35)
é baseado em , que se baseia, por sua vez, na maior diferença de médias (portanto, não há nenhuma parte de 1,96 nessa parte, mesmo uma dividida por ). Por outro lado, na comparação de vários gráficos de caixas, não se considera basear os entalhes na maior diferença de medianas, é tudo puramente em pares.q2–√
Portanto, embora várias das idéias por trás da forma dos componentes sejam algo análogas, na verdade elas são bem diferentes no que estão fazendo.
[1] McGill, R., Tukey, JW e Larsen, WA (1978) Variações de gráficos de caixas. The American Statistician 32, 12–16.