Eu tenho uma distribuição de amostras com um pequeno número de valores em cada um (menos de ). Eu calculei a mediana para cada amostra, que quero comparar com um modelo e obter a diferença entre o modelo e a mediana de cada amostra. Para ter um resultado consistente, preciso de um erro nessa diferença.
Isso resulta que encontrar o desvio padrão nesse caso pode ser bastante difícil, pelo menos para um não profissional como eu (veja, por exemplo, aqui ).
Encontrei este site que diz como calcular intervalos de confiança para a mediana, mesmo que não haja referência oficial citada.
Parece-me razoável, mas realmente não posso julgar, então gostaria de saber:
- essas fórmulas estão corretas?
- Existe uma referência para isso?
- E se eu quiser encontrar um IC diferente de ?
desde já, obrigado
EDIT: Eu também encontrei este exemplo de bootstrapping para dados não-Gaussianos . Agora, eu não sei muito sobre bootstrapping, mas seria bom ter um endereço sobre sua validade.
Respostas:
Sumário
Quando você pode assumir pouco ou nada sobre a verdadeira lei das probabilidades e deduzir pouco sobre ela - como é o caso de pequenas amostras de observações -, um par de estatísticas de ordem adequadamente escolhido constituirá um intervalo de confiança para a mediana. Qual ordem de estatística escolher pode ser facilmente encontrada com uma análise rápida da distribuição Binomial . Existem algumas opções a serem feitas na prática: elas são discutidas e ilustradas no final deste post.( n , 1 / 2 )n (n,1/2)
Aliás, a mesma análise pode ser usada para construir intervalos de confiança para qualquer quantil (do qual a mediana, correspondente a , é um exemplo). A distribuição binomial governa a solução nesse caso.q = 50 % ( n , q )q q=50% (n,q)
Introdução
Lembre-se do que significa um intervalo de confiança (IC). A definição é uma amostra aleatória independente com cada regulada pela mesma distribuição . Supõe-se apenas que é um elemento de um conjunto de possíveis distribuições. Cada um deles tem uma mediana . Para qualquer fixo entre e , um IC de nível é um par de funções (também conhecidas como "estatísticas"), e , de modo queX i F F Ω F 1 / 2 α 0 1 α L LX=(X1,X2,…,Xn) Xi F F Ω F1/2 α 0 1 α L U
O lado direito é a cobertura da CI para a distribuição .F
Além disso: para que isso seja útil, também preferimos que (1) o menor número de coberturas sobre seja o menor possível e (2) a duração esperada do intervalo, , deve tender a ser curto para todos ou "a maioria" .F∈Ω EF(U(X)−L(X)) F∈Ω
Análise
Suponha que não assumamos nada sobre .Ω Nesta situação, ainda podemos explorar as estatísticas da ordem . Esses são os valores específicos na amostra classificada. Para simplificar a notação, vamos classificar a amostra de uma vez por todas, para que
O valor é a estatística de ordem da amostra. Como não assumimos nada sobre , não sabemos nada sobre no início, portanto não podemos deduzir muito sobre os intervalos prováveis entre cada e seu vizinho . No entanto, ainda podemos raciocinar quantitativamente sobre os valores individuais: qual é a chance de não exceder a mediana de ? Para descobrir isso, seja uma variável aleatória governada por e permita queXi ith Ω F Xi Xi+1 Xi F Y F
ser a chance de que não seja superior a mediana de . Então, quando sabemos (desde ) que nossa amostra não ordenada original de valores deve conter pelo menos valores que não excedam .Y F Xi≤F1/2 X1≤⋯≤Xi≤F1/2 n i F1/2
Este é um problema binomial. Formalmente, se definirmos a variável aleatória como igual a quando e , caso contrário, o anterior mostra que tem uma distribuição de Bernoulli com o parâmetro . Um "sucesso" consiste em observar um valor igual ou inferior à mediana. Portanto, é dada pela probabilidade binomial associada a menos de sucessos:Z 1 Y≤F1/2 0 Z πF Pr(Xi>F1/2) i
Você provavelmente notou isso . De fato, para muitas distribuições, os dois valores são iguais: eles diferem apenas quando atribui probabilidade positiva à mediana . Para analisar a diferença, escreva para . Para isso implicaπF≥1/2 F F1/2 πF=1/2+ε ε≥0 2(j−1)≤n
Consequentemente, quando , podemos nos livrar da dependência da soma de , ao custo de substituir a igualdade por uma desigualdade:2(i−1)≤n F
Exatamente o mesmo argumento (aplicado pela reversão das estatísticas da ordem) mostra que quando ,2(i+1)≥n
O lado direito reduz a zero sempre que (no primeiro caso) ou (no segundo). Portanto, sempre é possível encontrar índices para os quaisi≤0 i≥n l≤u
Solução
Este é o complemento da condição definidora para um intervalo de confiança e, portanto, equivalente a ele:
Ao selecionar para tornar o lado direito pelo menos , teremos encontrado um procedimento de intervalo de confiança cujo nível é pelo menos .l≤u 1−α 1−α
Em outras palavras, ao escolher esses índices e , configurando e , o intervalo será um IC para a mediana com cobertura de pelo menos . Você pode calcular sua cobertura real em termos de probabilidades binomiais. Essa cobertura será alcançada para qualquer distribuição que atribua probabilidade zero a (que inclui todas as distribuições contínuas). Será excedido por qualquer que atribua probabilidade diferente de zero a .l u L(X)=Xl U(X)=Xu [L(X),U(X)] F1/2 1−α F F1/2 F F1/2
Discussão
Neste ponto, temos algumas opções. O mais comum é tornar os limites simétricos, definindo razoavelmente próximo de . De fato, estipulando , os limites de confiança podem ser encontrados para qualquer com uma pesquisa rápida ou aplicando a função quantil binomial.u n+1−l u=n+1−l n
Por exemplo, deixe e (para ilustrar um procedimento de CI). Vamos calcular a parte inferior da distribuição binomial cumulativa com os parâmetros e :n=10 α=10% 1−α=90% 10 1/2
(Esse é um2 5.5% α/2 l=3 u=10+1−3=8 1−0.055−0.055=0.89 90% l=2 u=8 l=3 u=9 1−0.011−.055=0.935
R
comando e sua resposta.) Como o valor em , igual a , é próximo a , é tentador aceitar e , por então a cobertura será que está próximo da meta de . Se você precisar obter a cobertura desejada, precisará tomar e ou e , ambos com cobertura .Como verificação, vamos simular muitos conjuntos de dados de qualquer distribuição, calcular esses ICs para os conjuntos de dados e contabilizar a proporção de ICs que cobrem a verdadeira mediana. Este
R
exemplo usa uma distribuição Normal:A saída é
As coberturas estão de acordo com os valores teóricos.
Como outro exemplo, vamos desenhar amostras de uma distribuição discreta, como um Poisson:
Desta vez, as coberturas são muito maiores do que o previsto. O motivo é que há uma chance de que um valor aleatório seja igual à mediana. Isso aumenta muito a chance de o IC cobrir a mediana. Isso não é um problema ou um paradoxo. Por definição, a cobertura deve ser pelo menos não importa qual seja a distribuição - mas é possível (como neste caso) que a cobertura para distribuições específicas seja substancialmente maior que .27% 1−α F 1−α
Aí reside a desvantagem: quando você não assume nada sobre , o IC baseado nas estatísticas de pedidos é o único que você pode construir. A cobertura do seu verdadeiro (mas desconhecido) pode ser um pouco maior do que o esperado. Isso significa que seu CI será maior do que se você tinha feito algumas suposições fortes sobre , limitando as possibilidades de .F F Ω F
fonte
Se você deseja usar métodos numéricos, pode gerar uma estimativa da distribuição amostral de medianas usando o bootstrap. Reamostrar repetidamente sua amostra e calcular muitas medianas. O stdev dessas medianas serve como uma estimativa do stdev da distribuição amostral das medianas. Usei um método semelhante para calcular a incerteza dos resultados dos jogos de xadrez em meu artigo sobre jogos de xadrez que podem ser encontrados aqui https://sonoma.academia.edu/JamalMunshi/papers
fonte