Independência da média e variância de distribuições uniformes discretas

9

Nos comentários abaixo de um post meu , Glen_b e eu estávamos discutindo como distribuições discretas necessariamente têm média e variação dependentes.

Para uma distribuição normal, faz sentido. Se eu disser a você , você não tem idéia do que é, e se eu disser a , você não tem idéia do que é . (Editado para abordar as estatísticas da amostra, não os parâmetros da população.)x¯s2s2x¯

Mas então, para uma distribuição uniforme e discreta, a mesma lógica não se aplica? Se eu estimar o centro dos pontos finais, não conheço a escala e, se eu estimar a escala, não conheço o centro.

O que está acontecendo de errado com o meu pensamento?

EDITAR

Eu fiz a simulação de jbowman. Então eu acertei com a transformação integral de probabilidade (eu acho) para examinar o relacionamento sem nenhuma influência das distribuições marginais (isolamento da cópula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

insira a descrição da imagem aqui

Na pequena imagem que aparece no RStudio, o segundo gráfico parece ter cobertura uniforme sobre o quadrado da unidade, portanto, independência. Ao ampliar, existem faixas verticais distintas. Eu acho que isso tem a ver com a discrição e que eu não deveria ler sobre isso. Eu tentei para uma distribuição uniforme contínua em .(0,10)

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

insira a descrição da imagem aqui

Este realmente parece ter pontos distribuídos uniformemente pelo quadrado da unidade, então continuo cético quanto ao fato de que e são independentes.x¯s2

Dave
fonte
Essa é uma abordagem interessante que você adotou lá, vou ter que pensar sobre isso.
precisa saber é
A dependência (necessariamente) fica mais fraca em amostras maiores, por isso é difícil de ver. Experimente tamanhos de amostra menores, como n = 5,6,7 e você verá isso mais facilmente.
Glen_b -Reinstala Monica 19/08/19
@Glen_b Você está certo. Há uma relação mais óbvia quando diminuo o tamanho da amostra. Mesmo na imagem que publiquei, parece haver alguns agrupamentos nos cantos inferiores direito e esquerdo, presentes no gráfico para o tamanho da amostra menor. Dois acompanhamentos. 1) A dependência está necessariamente ficando mais fraca porque os parâmetros populacionais podem variar independentemente um do outro? 2) Parece errado que as estatísticas tenham qualquer tipo de dependência, mas claramente têm. O que causa isso?
Dave
1
Uma maneira de obter algumas dicas é examinar os recursos especiais das amostras que entram nos "chifres" na parte superior das parcelas de Bruce. Em particular, observe que em n = 5, você obtém a maior variação possível com todos os pontos próximos. para 0 ou 1, mas como existem 5 observações, você precisa de 3 em uma extremidade e 2 na outra; portanto, a média deve estar próxima de 0,4 ou 0,6, mas não próxima de 0,5 (uma vez que colocar um ponto no meio reduzirá a variação a Se você tivesse uma distribuição de cauda pesada, tanto a média quanto a variância seriam mais afetadas pela observação mais extrema ...
ctd
1
ctd ... e nessa situação, você obtém uma forte correlação entree (dando dois grandes "pontas" de cada lado do centro da população num lote de SD vs significativo) - com o uniforme Esta correlação é um tanto negativa. ... Com amostras grandes, você irá para o comportamento assintótico de que acaba sendo normal em conjunto. |x¯μ|s(X¯,sX2)
Glen_b -Reinstala Monica 19/08/19

Respostas:

4

A resposta de jbowman (+1) conta grande parte da história. Aqui está um pouco mais.

(a) Para dados de uma distribuição uniforme contínua , a média da amostra e o DP não estão correlacionados, mas não são independentes. Os 'contornos' da trama enfatizam a dependência. Entre distribuições contínuas, a independência vale apenas para o normal.

insira a descrição da imagem aqui

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

(b) Uniforme discreto. A discretividade torna possível encontrar um valor da média e um valor do SD, de modo que masasP(X¯=a)>0,P(S=s)>0,P(X¯=a,X=s)=0.

insira a descrição da imagem aqui

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(c) Uma distribuição normal arredondada não é normal. Discreteness causa dependência.

insira a descrição da imagem aqui

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(d) Além de (a), usando a distribuição vez de enfatiza os limites dos possíveis valores da média da amostra e do DP. Estamos 'esmagando' um hipercubo tridimensional em dois espaços. Imagens de algumas hiper-arestas são nítidas. [Ref: A figura abaixo é semelhante à Fig. 4.6 em Suess & Trumbo (2010), Introdução à simulação de probabilidade e amostragem de Gibbs com R, Springer.]Beta(.1,.1),Beta(1,1)Unif(0,1).

insira a descrição da imagem aqui

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Adendo por comentário.

insira a descrição da imagem aqui

BruceET
fonte
Use ecdf no seu último. O gráfico de dispersão é selvagem! De qualquer forma, se uma variável uniforme tem dependência entre e , como é que estamos obtendo algumas informações sobre uma conhecendo a outra, uma vez que podemos esticar o intervalo ou mudar o centro, quer seja não afeta o outro valor? Se obtivermos , não devemos saber se ou , semelhante a como podemos esticar a distribuição normal sem afetar a média. s2 ˉ x =0s2=1s2=100x¯s2x¯=0s2=1s2=100
Dave
O critério da independência é exigente. A falta de independência entre dois RVs não garante que seja fácil obter informações sobre um, sabendo o valor do outro. // Em (d), não tenho certeza do que o ECDF de A ou S revelaria. // Gráfico de dispersão em (d) mostra 6 'pontos', imagens em transformação de 32 vértices do hipercubo 5-d com multiplicidades 1, 5, 10, 10, 5, 1 (da esquerda para a direita). As multiplicidades explicam por que os dois principais pontos são mais distintos.
precisa saber é o seguinte
Não quero dizer que é fácil obter informações sobre um, se você conhece o outro, mas se você tiver independência, tudo o que você pode passar é a distribuição marginal. Considere duas variáveis ​​normais padrão e com . Se você sabe que , não sabe o que é igual a , mas sabe que um valor em torno de é mais provável que um valor em torno de . Se , um valor em torno de é tão provável quanto um valor em torno de . Y ρ = 0,9 x = 1 y 1 - 1 ρ = 0 1 - 1XYρ=0.9x=1y11ρ=011
Dave
Mas isso é para uma relação quase linear entre duas normais normais. Média e DP das amostras não são tão fáceis.
precisa saber é o seguinte
1
@ Você tem informações sobre um quando conhece o outro. Por exemplo, se a variância da amostra é muito grande, você sabe a média da amostra não é realmente próximo a 0,5 (veja a lacuna na parte superior central do primeiro enredo, por exemplo)
Glen_b -Reinstate Monica
2

Não é que a média e variância são dependentes no caso de distribuições discretas, é que a amostra de média e variância são dependentes dado os parâmetros da distribuição. A média e a variação são funções fixas dos parâmetros da distribuição, e conceitos como "independência" não se aplicam a eles. Consequentemente, você está fazendo as perguntas hipotéticas erradas.

(x¯,s2)(1,2,,10)

insira a descrição da imagem aqui

s2x¯

Obviamente, um exemplo não pode provar a conjectura de Glen no post ao qual você vinculou e que não existe distribuição discreta com médias e variações independentes de amostra!

jbowman
fonte
Essa é uma boa ideia sobre estatística versus parâmetro. Fiz uma edição bastante extensa.
Dave