Se eu calcular a mediana de um número suficientemente grande de observações extraídas da mesma distribuição, o teorema do limite central afirma que a distribuição de medianas se aproximará de uma distribuição normal? Meu entendimento é que isso é verdade com os meios de um grande número de amostras, mas também é verdade com as medianas?
Caso contrário, qual é a distribuição subjacente das medianas da amostra?
Respostas:
Se você trabalha em termos de variáveis indicadoras (por exemplo, se e caso contrário), você pode aplicar diretamente o teorema do limite central a uma média de e, usando o método Delta , transformá-lo em um distribuição normal assintótica para , que por sua vez significa que você começa a normalidade assintótica para quantiles fixos de .Zi=1 Xi≤x 0 Z F−1X(Z¯) X
Portanto, não apenas a mediana, mas os quartis, percentis 90, ... etc.
Vagamente, se estivermos falando sobre o th quantil da amostra em amostras suficientemente grandes, obtemos que ele terá aproximadamente uma distribuição normal com a média do th quantil da população e variância .q q xq q(1−q)/(nfX(xq)2)
Portanto, para a mediana ( ), a variação em amostras suficientemente grandes será de aproximadamente .q=1/2 1/(4nfX(μ~)2)
Você precisa de todas as condições ao longo do caminho, é claro, para que não funcione em todas as situações, mas para distribuições contínuas em que a densidade no quantil da população é positiva e diferenciável, etc ...
Além disso, ele não vale para quantis extremos, porque o CLT não entra lá (a média de Zs não será assintoticamente normal). Você precisa de uma teoria diferente para valores extremos.
Editar: a crítica do whuber está correta; isso funcionaria se fosse uma mediana da população e não uma mediana da amostra. O argumento precisa ser modificado para realmente funcionar corretamente.x
fonte
A idéia principal é que a distribuição amostral da mediana seja simples de expressar em termos da função de distribuição, mas mais complicada de expressar em termos do valor da mediana. Uma vez que entendemos como a função de distribuição pode re-expressar valores como probabilidades e vice-versa, é fácil derivar a exata distribuição amostral da mediana. É necessária uma pequena análise do comportamento da função de distribuição perto de sua mediana para mostrar que isso é assintoticamente normal.
(A mesma análise funciona para a distribuição amostral de qualquer quantil, não apenas a mediana.)
Não farei nenhuma tentativa de ser rigoroso nesta exposição, mas realizo-a em etapas que são prontamente justificadas de maneira rigorosa, se você quiser fazer isso.
Intuição
Estes são instantâneos de uma caixa contendo 70 átomos de um gás atômico quente:
Em cada imagem, encontrei um local, mostrado como uma linha vertical vermelha, que divide os átomos em dois grupos iguais entre a esquerda (desenhada como pontos pretos) e a direita (pontos brancos). Essa é uma mediana das posições: 35 dos átomos ficam à esquerda e 35 à direita. As medianas mudam porque os átomos estão se movendo aleatoriamente ao redor da caixa.
Estamos interessados na distribuição dessa posição intermediária. Essa pergunta é respondida revertendo meu procedimento: primeiro vamos desenhar uma linha vertical em algum lugar, digamos no local . Qual é a chance de metade dos átomos estar à esquerda de e metade à sua direita? Os átomos à esquerda individualmente tinham chances de estar à esquerda. Os átomos à direita individualmente tinham chances de para estar à direita. Assumindo que suas posições são estatisticamente independentes, as chances se multiplicam, dando pela chance dessa configuração específica. Uma configuração equivalente poderia ser alcançado para uma divisão diferente dos átomos em duas= x 1 - x x 35 ( 1 - x ) 35 70 35x x x 1−x x35(1−x)35 70 35 peças A adição desses números para todas essas divisões possíveis dá a chance de
onde é o número total de átomos e é proporcional ao número de divisões de átomos em dois subgrupos iguais.C nn C n
Esta fórmula identifica a distribuição da mediana como um beta distribuição(n/2+1,n/2+1) .
Agora considere uma caixa com uma forma mais complicada:
Mais uma vez as medianas variam. Como a caixa está baixa perto do centro, não há muito volume: uma pequena mudança no volume ocupado pela metade esquerda dos átomos (os pretos mais uma vez) - ou, como podemos admitir, a área à esquerda, como mostrado nessas figuras - corresponde a uma mudança relativamente grande na posição horizontal da mediana. De fato, como a área subtendida por uma pequena seção horizontal da caixa é proporcional à altura , as alterações nas medianas são divididas pela altura da caixa. Isso faz com que a mediana seja mais variável para esta caixa do que para a caixa quadrada, porque esta é muito mais baixa no meio.
Em resumo, quando medimos a posição da mediana em termos de área (à esquerda e à direita), a análise original (para uma caixa quadrada) permanece inalterada. A forma da caixa só complica a distribuição se insistirmos em medir a mediana em termos de sua posição horizontal. Quando fazemos isso, a relação entre a representação da área e da posição é inversamente proporcional à altura da caixa.
Há mais a aprender com essas fotos. É claro que, quando poucos átomos estão na (ou) caixa, há uma chance maior de que metade deles possa acidentalmente terminar agrupada em ambos os lados. À medida que o número de átomos aumenta, o potencial para um desequilíbrio extremo diminui. Para acompanhar isso, peguei "filmes" - uma longa série de 5000 quadros - para a caixa curva preenchida com , depois com , depois e, finalmente, com átomos, e observei as medianas. Aqui estão os histogramas das posições medianas:15 75 3753 15 75 375
Claramente, para um número suficientemente grande de átomos, a distribuição de sua posição mediana começa a parecer em forma de sino e fica mais estreita: isso parece um resultado do Teorema do Limite Central, não é?
Resultados Quantitativos
A "caixa", é claro, descreve a densidade de probabilidade de alguma distribuição: seu topo é o gráfico da função de densidade (PDF). Assim, as áreas representam probabilidades. Colocar pontos aleatoriamente e independentemente dentro de uma caixa e observar suas posições horizontais é uma maneira de extrair uma amostra da distribuição. (Essa é a ideia por trás da amostragem por rejeição. )n
A próxima figura conecta essas idéias.
Isso parece complicado, mas é realmente muito simples. Existem quatro gráficos relacionados aqui:
O gráfico superior mostra o PDF de uma distribuição junto com uma amostra aleatória do tamanho . Valores maiores que a mediana são mostrados como pontos brancos; valores menores que a mediana como pontos pretos. Não precisa de uma escala vertical, porque sabemos que a área total é a unidade.n
O gráfico do meio é a função de distribuição cumulativa para a mesma distribuição: usa altura para denotar probabilidade. Ele compartilha seu eixo horizontal com o primeiro gráfico. Seu eixo vertical deve ir de a porque representa probabilidades.10 1
O gráfico da esquerda deve ser lido de lado: é o PDF da distribuição Beta . Ele mostra como a mediana na caixa variará quando a mediana for medida em termos de áreas à esquerda e à direita do meio (em vez de ser medida por sua posição horizontal). Eu desenhei pontos aleatórios deste PDF, como mostrado, e os conectei com linhas tracejadas horizontais aos locais correspondentes no CDF original: é assim que os volumes (medidos à esquerda) são convertidos em posições (medidas na parte superior, central) e gráficos inferiores). Um desses pontos realmente corresponde à mediana mostrada no gráfico superior; Eu desenhei uma linha vertical sólida para mostrar isso.16(n/2+1,n/2+1) 16
O gráfico de fundo é a densidade amostral da mediana, medida pela sua posição horizontal. É obtido convertendo a área (na plotagem esquerda) para a posição. A fórmula de conversão é dada pelo inverso do CDF original: esta é simplesmente a definição do CDF inverso! (Em outras palavras, o CDF converte a posição em área à esquerda; o CDF inverso converte de volta da área para a posição.) Plotamos linhas verticais tracejadas, mostrando como os pontos aleatórios do gráfico esquerdo são convertidos em pontos aleatórios no gráfico inferior . Esse processo de leitura transversal e descendente nos diz como ir de uma área para outra.
Seja o CDF da distribuição original (plot do meio) e o CDF da distribuição Beta. Para encontrar a chance de a mediana estar à esquerda de alguma posição , primeiro use para obter a área à esquerda de na caixa: este é o próprio . A distribuição Beta à esquerda nos diz que há metade dos átomos nesse volume, dando : esse é o CDF da posição mediana . Para encontrar seu PDF (como mostrado na plotagem inferior), use a derivada:F G x F x F(x) G(F(x))
onde é o PDF (plotagem superior) é o PDF beta (plotada esquerda).f g
Essa é uma fórmula exata para a distribuição da mediana para qualquer distribuição contínua. (Com algum cuidado na interpretação, pode ser aplicado a qualquer distribuição, seja contínua ou não.)
Resultados Assintóticos
Quando é muito grande e não tem um salto em sua mediana, a mediana da amostra deve variar bastante em torno da verdadeira mediana da distribuição. Supondo também que o PDF seja contínuo próximo a , na fórmula anterior não mudará muito de seu valor em fornecido por Além disso, também não mudará muito de seu valor: para primeira ordem,n F μ f μ f(x) μ, f(μ). F
Assim, com uma aproximação cada vez melhor à medida que cresce,n
Isso é apenas uma mudança de localização e escala da distribuição Beta. O redimensionamento por dividirá sua variação por (que é melhor ser diferente de zero!). Aliás, a variação de Beta é muito próxima de .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Esta análise pode ser vista como uma aplicação do método Delta .
Finalmente, Beta é aproximadamente Normal para grande . Existem muitas maneiras de ver isso; talvez o mais simples seja analisar o logaritmo de seu PDF próximo a :(n/2+1,n/2+1) n 1/2
(As constantes e apenas normalizam a área total para a unidade.) Por meio da terceira ordem em então, é o mesmo que o log do PDF normal com variação (Este argumento é rigoroso usando funções geradoras de características ou cumulantes, em vez do log do PDF.)C C′ x, 1/(4n).
Juntando isso, concluímos que
A distribuição da mediana da amostra varia aproximadamente ,1/(4nf(μ)2)
e é aproximadamente normal para grande ,n
tudo desde que o PDF seja contínuo e diferente de zero na medianaf μ.
fonte
R
, talvez usandolayout
, mas na verdade foi feito com o Mathematica 9. #A resposta esclarecedora do @EngrStudent nos diz que devemos esperar resultados diferentes quando a distribuição for contínua e quando for discreta (os gráficos "vermelhos", em que a distribuição assintótica da mediana da amostra falha espetacularmente para parecer normal, corresponde à distribuição binomial (3), Geométrico (11), Hipergeométrico (12), Binomial Negativo (14), Poisson (18), Uniforme Discreto (22).
E, de fato, é esse o caso. Quando a distribuição é discreta, as coisas ficam complicadas. Fornecerei a prova para o Caso Absolutamente Contínuo, essencialmente não fazendo mais do que detalhar a resposta já dada por @Glen_b, e depois discutirei um pouco o que acontece quando a distribuição é discreta, fornecendo também uma referência recente para quem estiver interessado em mergulhar no.
DISTRIBUIÇÃO ABSOLUTAMENTE CONTÍNUA{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Considere uma coleção de variáveis aleatórias absolutamente contínuas iid com função de distribuição (cdf) e função de densidade . Defina onde é a função do indicador. Portanto é um Bernoulli rv, com
Seja a média amostral desses iid Bernoullis, definida para fixo como que significa que O Teorema do Limite Central se aplica e temosYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Observe que ou seja, diferente da função de distribuição empírica. Ao aplicar o "Método Delta", obtemos que para uma função contínua e diferenciável com derivada diferente de zero no ponto de interesse, obtemosYn(x)=F^n(x) g(t) g′(t)
Agora, escolha onde denota a função inversa. Esta é uma função contínua e diferenciável (já que é) e, pelo Teorema da Função Inversa, temosg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Inserindo esses resultados em no resultado assintótico derivado do método delta, temosg
e simplificando,
.. para qualquer fixo . Agora defina , a mediana (verdadeira) da população. Então temos e o resultado geral acima se torna, para nosso caso de interesse,x x=m FX(m)=1/2
Mas converge para a mediana da amostra . Isto é porqueF−1X(F^n(m)) m^
O lado direito da desigualdade converge para e o menor para o qual, eventualmente, , é a mediana da amostra.1/2 x FX≥1/2
Então nós obtemos
DISTRIBUIÇÕES DISCRETAS
Quando a distribuição é discreta (ou quando a amostra contém laços), foi argumentado que a definição "clássica" de quantis de amostra e, portanto, da mediana também pode ser enganosa em primeiro lugar , como o conceito teórico a ser usado para medir o que se tenta medir por quantis.
De qualquer forma, foi simulado que, sob essa definição clássica (a que todos conhecemos), a distribuição assintótica da mediana da amostra não é normal e é uma distribuição discreta.
Uma definição alternativa de quantis de amostra é usar o conceito da função "distribuição média", definida comoFmid(x)=P(X≤x)−12P(X=x)
A definição de quantis amostrais através do conceito de função de distribuição média pode ser vista como uma generalização que pode cobrir como casos especiais as distribuições contínuas, mas também as não tão contínuas.
Para o caso de distribuições discretas, entre outros resultados, verificou-se que a mediana da amostra, definida por esse conceito, tem uma distribuição assintoticamente normal com uma variação de aparência elaborada.
A maioria destes são resultados recentes. A referência é Ma, Y., Genton, MG, & Parzen, E. (2011). Propriedades assintóticas de quantis de amostras de distribuições discretas. Anais do Instituto de Matemática Estatística, 63 (2), 227-243. , onde é possível encontrar uma discussão e links para a literatura relevante mais antiga.
fonte
Sim, é, e não apenas para a mediana, mas para qualquer quantil de amostra. Copiando deste artigo , escrito por TS Ferguson, professor da UCLA (sua página está aqui ), que lida de maneira interessante com a distribuição conjunta da média amostral e dos quantis amostrais, temos:
Deixe seja iid com a função de distribuição , densidade , média e variância finita . Seja e denote o quantil de , de modo que . Suponha que a densidade seja contínua e positiva em . Seja denotar a amostra ésima quantil. Então F ( x ) f ( x ) u σ 2 0 < p < 1 x p p FX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Para (mediana), e você possui o CLT para medianas,p=1/2⇒xp=m
fonte
Eu gosto da resposta analítica dada por Glen_b. É uma boa resposta.
Precisa de uma foto. Eu gosto de fotos
Aqui estão as áreas de elasticidade em uma resposta à pergunta:
Para um padrão normal, usei o seguinte código MatLab:
e recebi o seguinte gráfico como saída:
Então, por que não fazer isso para as outras 22 distribuições "internas", exceto usando prob-plots (onde linha reta significa muito normal)?
E aqui está o código fonte:
Quando vejo a prova analítica, penso que "em teoria, todas podem se encaixar", mas quando a experimento, posso temperar isso com "existem várias maneiras de isso não funcionar tão bem, geralmente envolvendo discretos ou altamente restritos". valores "e isso pode me fazer querer ter mais cuidado ao aplicar a teoria a qualquer coisa que custe dinheiro.
Boa sorte.
fonte