Erro padrão da mediana

14

A fórmula a seguir está correta se eu quiser medir o erro padrão da mediana no caso de uma amostra pequena com distribuição não normal (estou usando python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)
Maria
fonte

Respostas:

12

Com base em alguns comentários da @ mary, acho que o seguinte é apropriado. Ela parece estar selecionando a mediana porque a amostra é pequena.

Se você estava selecionando mediana porque é uma amostra pequena, isso não é uma boa justificativa. Você seleciona mediana porque a mediana é um valor importante. Diz algo diferente da média. Você também pode selecioná-lo para alguns cálculos estatísticos, pois é robusto contra certos problemas, como outliers ou skew. No entanto, o tamanho pequeno da amostra não é um daqueles problemas contra os quais ele é robusto. Por exemplo, quando o tamanho da amostra fica menor, na verdade é muito mais sensível à inclinação do que a média.

John
fonte
Obrigado John! Na verdade, eu escolhi usar a mediana no lugar da média pela razão que você acabou de escrever. Eu tenho amostras diferentes, todas elas com distribuição não gaussiana. Há amostras com mais de 50 pontos, outras com menos de 10 pontos, mas para todos eles, acho que seu comentário é válido, não é?
mary
Com tão poucos pontos, não tenho certeza do que você pode dizer sobre a distribuição subjacente. Se você estiver comparando amostras que contenham menos de 10 com amostras que contenham 50 e a distribuição subjacente não seja simétrica, a mediana mostrará um efeito, mesmo que não exista, porque haverá mais viés na amostra pequena do que na grande. A média não vai.
João
No futuro, elabore melhor suas perguntas e pergunte mais sobre o que você realmente precisa saber. Diga por que você fez o que fez até agora e descreva os dados que possui. Você obterá respostas muito melhores.
João
1
"o tamanho pequeno da amostra não é um daqueles problemas com os quais é robusto " vale +1 por si só; o resto é um bônus
Glen_b -Reinstate Monica
De fato, Huber ressalta em seu livro que não existe um conceito único de robustez. Existe robustez para os outliers (e é para isso que a mediana é robusta). Outra visão, no entanto, é a robustez ao erro de medição, e é para isso que a média é robusta, pois calcula a média desses erros de medição. A mediana, no entanto, é altamente suscetível a flutuações nos erros de medição, pois podem afetar o meio da distribuição tão mal quanto as caudas.
Stask
12

Sokal e Rohlf apresentam essa fórmula em seu livro Biometry (página 139). Em "Comentários sobre aplicabilidade", eles escrevem: Amostras grandes de populações normais. Portanto, receio que a resposta para sua pergunta seja não. Veja também aqui .

Uma maneira de obter os intervalos padrão de erro e confiança para a mediana em amostras pequenas com distribuições não normais seria o bootstrap. Esta publicação fornece links para pacotes Python para inicialização.

Atenção

O @whuber apontou que o bootstrap da mediana em pequenas amostras não é muito informativo, pois as justificativas do bootstrap são assintóticas (veja os comentários abaixo).

COOLSerdash
fonte
obrigado pela sua resposta! Eu sei que o bootstrapping seria uma alternativa, eu estava apenas imaginando se existe uma maneira de medir o erro da mediana de uma maneira diferente. A resposta não é também para o erro padrão no MEAN (mesma pequena amostra não gaussiana)?
mary
@mary Para o erro padrão da média, Sokal e Rohl escrevem que é aplicável a "qualquer [...] população com variação finita". Portanto, a resposta para o erro padrão da média parece ser sim, você pode calculá-lo. Nota: No entanto, existem distribuições (por exemplo, a distribuição de Cauchy) que não têm uma variação ou média definida e, nesses casos, o SEM não pode ser calculado.
COOLSerdash
5
(+1) Infelizmente, a inicialização da mediana de uma amostra pequena também não será muito informativa - e é desnecessária, pois pode ser substituída por um cálculo simples. (Para qualquer número , pergunte-se, quais são as chances de que mais da metade de uma amostra de bootstrap exceda t ? Essa resposta é fácil de encontrar e agora você não precisa executar nenhuma simulação para estimar isso.)tt
whuber
Obrigado pelo seu comentário. É bom saber disso. Eu apaguei o conselho para inicializar a mediana em pequenas amostras da minha resposta.
COOLSerdash
1
Não estava tentando sugerir um conselho ruim: só queria apontar suas (inevitáveis) limitações. Aprender muito com pequenas amostras é difícil. Mas inicializar pequenas amostras é duplamente difícil, porque não há justificativa teórica para apoiá-la (toda justificativa é assintótica).
whuber
12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. Que a fórmula assintótica para variância funciona para a amostra pequena;
  2. Que a mediana estimada é próxima o suficiente da mediana verdadeira;
  3. Que o estimador de densidade do kernel fornece um valor preciso.

Quanto menor o tamanho da amostra, mais duvidoso fica.

StasK
fonte
3
π21.253314