Distribuição assintótica de multinomial

10

Estou procurando a distribuição limitadora da distribuição multinomial sobre os resultados de d. IE, a distribuição dos seguintes

limnn12Xn

Onde Xn é uma variável aleatória de valor vetorial com densidade fn(x) para x modo que ixi=n , xiZ,xi0 e 0 para todos os outros x , em que

fn(x)=n!i=1dpixixi!

Encontrei uma forma no teorema "All of Statistics" de Larry Wasserman 14.6, página 237, mas, para limitar a distribuição, ela fornece Normal com uma matriz de covariância singular, então não tenho certeza de como normalizá-la. Você poderia projetar o vetor aleatório no espaço (d-1) -dimensional para tornar a matriz de covariância completa, mas que projeção usar?

Atualização 11/5

Ray Koopman tem um bom resumo do problema do gaussiano singular. Basicamente, a matriz de covariância singular representa uma correlação perfeita entre variáveis, o que não é possível representar com um gaussiano. No entanto, pode-se obter uma distribuição gaussiana para a densidade condicional, condicionada ao fato de que o valor do vetor aleatório é válido (componentes somam n no caso acima).

A diferença para o gaussiano condicional é que inverso é substituído por pseudo-inverso e o fator de normalização usa "produto de autovalores diferentes de zero" em vez de "produto de todos os autovalores". Ian Frisce fornece um link com alguns detalhes.

Há também uma maneira de expressar o fator de normalização de Gauss condicional sem se referir a autovalores, aqui está uma derivação

Yaroslav Bulatov
fonte
O que exatamente você quer dizer com limitação de distribuição neste caso?
Robby McKilliam
ou seja, aquele que você recebe do Teorema do Limite Central, deixe-me atualizar os detalhes
Yaroslav Bulatov
11
Você está se referindo à distribuição assintótica do estimador de probabilidade máxima de um multinomial. Além disso, a primeira equação deve ser n ^ {- 1}, não n ^ {- 1/2}.
Simon Byrne
11
Na notação acima, para d = 2, X_n é o número de cabeças após o lançamento de n moedas, então é X_n / sqrt (n) que se aproxima de Normal, não X_n / n, não?
Yaroslav Bulatov
11
Sim, você está certo. Eu só estava me confundindo.
Simon Byrne

Respostas:

6

A covariância ainda é definitiva não negativa (assim como uma distribuição normal multivariada válida ), mas não definitiva positiva: o que isso significa é que (pelo menos) um elemento do vetor aleatório é uma combinação linear dos outros.

Como resultado, qualquer desenho dessa distribuição sempre estará no subespaço de . Como conseqüência, isso significa que não é possível definir uma função de densidade (como a distribuição está concentrada no subespaço: pense na maneira como um normal univariado se concentrará na média se a variação for zero).Rd

No entanto, conforme sugerido por Robby McKilliam, nesse caso, você pode soltar o último elemento do vetor aleatório. A matriz de covariância deste vetor reduzido será a matriz original, com a última coluna e linha descartadas, que agora serão definidas positivamente e terão uma densidade (esse truque funcionará em outros casos, mas você deve ter cuidado com qual elemento você solta e pode ser necessário soltar mais de um).

Simon Byrne
fonte
O que é um pouco insatisfatória é a liberdade de escolha. Para obter uma densidade válida, preciso solicitar a distribuição de A x onde A é uma matriz d-1 rank (d) x (d-1). O erro da aproximação CLT para n finito será equivalente para todas as opções de A? Isso não está claro para mim
Yaroslav Bulatov 6/09/10
11
Sim, o erro deve sempre ser o mesmo. Lembre-se de que o último elemento do vetor é funcionalmente dependente dos outros elementos (d-1) (na amostra finita e nos casos assintóticos).
Simon Byrne
Não é que o último elemento seja dependente, o problema de Yaroslav é que ele não gosta da ideia de escolher qual elemento soltar. Concordo com a resposta que você deu, mas também acho que é necessário um pouco mais de atenção e cuidado aqui.
Robby McKilliam
@Yaroslav: Talvez seja bom ter uma idéia de qual aplicativo você tem em mente aqui, porque nesta fase há potencialmente muitas respostas para sua pergunta.
Robby McKilliam
11
Robby - a aplicação que eu tinha em mente é aqui mathoverflow.net/questions/37582/… Basicamente, integrais de Gaussian sugeridas pelo CLT oferecem uma aproximação extremamente boa às somas de coeficientes binomiais (para n pequeno, até melhor do que integrar diretamente a representação gama!), então eu estava vendo se eu posso fazer algo semelhante para obter somas aproximadas de coeficientes multinomiais, que eu preciso para obter limites não assintótica de erro para vários instaladores (como, máxima verossimilhança)
Yaroslav Bulatov
2

Não há nenhum problema inerente à covariância singular aqui. Sua distribuição assintótica é o normal singular. Veja http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html, que fornece a densidade do normal singular.

Ian Fiske
fonte
Tecnicamente, o problema é que a matriz de covariância singular significa que algum subconjunto de variáveis ​​está perfeitamente correlacionado, portanto a densidade de probabilidade deve ser exatamente 0 em algumas áreas, mas isso não é possível com um gaussiano. Uma solução é examinar a densidade condicional, condicionada ao fato de que a variável aleatória se encontra em uma região viável. Parece o que eles estão fazendo no link. Nunca ouvi o termo "inverso-G", acho que é pseudo-inverso de Penrose-Moore?
Yaroslav Bulatov 6/11/10
Embora seja verdade que um gaussiano d-dimensional convencional tenha suporte em todos os , o gaussiano singular não. G-inverso é generalizado inverso, e sim, acredito que a definição de Penrose-Moore funciona aqui. Eu acho que existe um CLT para covariâncias singulares, afirmando como esperado, convergência na distribuição para o CLT singular, embora eu não possa encontrar um árbitro no momento. d
Ian Fiske
1

Parece-me que a matriz de covariância de Wasserman é singular, para ver, multiplicá-la por um vetor de , ou seja, de comprimento .d[1,1,1,,1]d

A Wikipedia fornece a mesma matriz de covariância de qualquer maneira. Se nos restringirmos apenas a uma distribuição binomial, o teorema do limite central padrão nos diz que a distribuição binomial (após o dimensionamento apropriado) converge para o normal à medida que aumenta (consulte a Wikipedia novamente ). Aplicando idéias semelhantes, você deve poder mostrar que um mulinomial adequadamente dimensionado convergirá na distribuição para o normal multivariado, ou seja, cada distribuição marginal é apenas um binomial e converge para a distribuição normal, e a variação entre elas é conhecida.n

Portanto, estou muito confiante de que você descobrirá que a distribuição de converge para o normal multivariado com média zero e covariância que é a covariância matriz do multinomial em questão é o vetor de probabilidades .

Xnnpn
Cn
Cp[p1,,pd]
Robby McKilliam
fonte
11
mas a matriz de covariância do multinomial em questão é singular, você mesmo ...
Yaroslav Bulatov
Oh, eu vejo o seu problema! Um dos elementos, digamos, o th é completamente dependente dos outros. Provavelmente, se você cortar a última linha e coluna de verá que são normalmente distribuídos, mas vou ter que pensar sobre isso. Certamente isso já está resolvido em algum lugar! C [ p 1 , p 2 , , p d - 1 ]dC[p1,p2,,pd1]
Robby McKilliam
Uma sugestão que encontrei é ainda usar um gaussiano, mas usar pseudo-inverso em vez de inverso e "produto de autovalores diferentes de zero" em vez de determinante. Para d = 2, esta parece para dar a forma a densidade correcta, mas o factor de normalização é desligado
laroslav Bulatov
1

Não é o caso depara todo onde é a matriz de covariância multinomial com a -ésima linha e coluna removidas? Como esse é o caso, não entendo o que você quer dizer com "liberdade de escolha", já que qualquer "escolha" é equivalente.i , j S - i i|Si|=|Sj|i,jSii

jvdillon
fonte
Essas matrizes não são iguais, aqui é a matriz de covariância yaroslavvb.com/upload/multinomial-covariance-matrix.png
Yaroslav Bulatov
Sim, essa é realmente a matriz de covariância. Soltar qualquer i-ésima coluna e linha resulta no mesmo termo de normalização para o gaussiano foi o meu ponto. Talvez eu esteja perdendo algo óbvio?
jvdillon
Ah ... não percebeu o sinal determinante. Hum ... eles parecem iguais em alguns exemplos que tentei, existe uma prova simples disso? Valores próprios não são iguais no entanto. A motivação para a pergunta foi descobrir se o teorema do limite central fornece o mesmo erro de aproximação para finito, independentemente de qual distância multinomial. componente que cairn
Yaroslav Bulatov
Provavelmente, a maneira mais fácil de se convencer é que e plugue que em para em . p i Spi=1jipjpiS
jvdillon
BTW, eu gosto da sua aplicação desta ideia - daí o meu interesse em responder.
jvdillon