Seja uma distribuição conjunta de duas variáveis categóricas , com . Digamos que amostras foram retiradas dessa distribuição, mas recebemos apenas as contagens marginais, ou seja, para :
Qual é o estimador de máxima verossimilhança para , dado ? Isso é conhecido? Computacionalmente viável? Existem outras abordagens razoáveis para esse problema além de ML?
maximum-entropy
tag? Você está buscando uma solução de entropia máxima?Respostas:
Esse tipo de problema foi estudado no artigo "Aumento de dados em tabelas de contingência de múltiplas vias com totais marginais fixos", de Dobra et al (2006). Seja denotar os parâmetros do modelo, seja n a tabela de números inteiros não observados para cada par ( x , y ) e seja C ( S , T ) o conjunto de tabelas inteiras cujas contagens marginais sejam iguais ( S , T ) . Então a probabilidade de observar as contagens marginais ( S , T ) é: p (θ n (x,y) C(S,T) (S,T) (S,T)
onde p ( n | θ ) é a distribuição de amostragem multinomial. Isso define a função de probabilidade para ML, mas a avaliação direta é inviável, exceto para pequenos problemas. A abordagem que eles recomendam é o MCMC, onde você atualiza alternadamente n e θ
Uma abordagem diferente usaria métodos variacionais para aproximar a soma sobre . As restrições marginais podem ser codificadas como um gráfico de fatores e a inferência sobre θ pode ser realizada usando a Propagação de Expectativas.n θ
Para ver por que esse problema é difícil e não admite uma solução trivial, considere o caso . Tomando S como a linha soma e T como a coluna soma, existem duas tabelas de contagens possíveis: [ 0 1 2 0 ]S=(1,2),T=(2,1) S T
Por conseguinte, a função de probabilidade é
P(S,T | q)=3 p 12 p 2 21 +6 p 11 p 21 p 22
A MLE para este problema é
p x , y = [ 0 1 / 3 2 / 3 0 ]
fonte
Como foi apontado por @Glen_b, isso não é especificado adequadamente. Eu não acho que você possa usar a máxima probabilidade, a menos que possa especificar completamente a probabilidade.
Se você estava disposto a assumir a independência, então o problema é bastante simples (aliás, acho que a solução seria a solução de entropia máxima sugerida). Se você não está disposto nem é capaz de impor uma estrutura adicional ao seu problema e ainda deseja algum tipo de aproximação aos valores das células, pode ser que você possa usar os limites da cópula de Fréchet – Hoeffding . Sem suposições adicionais, não acho que você possa ir mais longe.
fonte
Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts givenpx,y is only a function of the marginal probabilities px=∑ypx,y and py=∑xpx,y . I'm still thinking about it.
Wrong stuff follows:
As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator forpx,y is that it's not unique. For instance, consider the case with binary X,Y and marginals S1=S2=T1=T2=10 . The two estimators
have the same marginal probabilitiespx and py in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).
Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Letp=(acbd) be a maximum-likelihood solution. Without loss of generality suppose 0<a≤d . Then p=(0c+ab+ad−a) has the same marginals and is thus also a maximum-likelihood solution.
If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in whichX,Y are independent. You can see this as follows:
The entropy of the distribution isH(p)=−∑x,ypx,ylogpx,y ; maximizing subject to ∑xpx,y=py and ∑ypx,y=px (equivalently, g⃗ (p)=0 where gx(p)=∑ypx,y−px and gy(p)=∑xpx,y−py ) using Lagrange multipliers gives the equation:
All the gradients of eachgk are 1, so coordinate-wise this works out to
plus the original constraints∑xpx,y=py and ∑ypx,y=px . You can verify that this is satisfied when e1/2−λx=px and e1/2−λy=py , giving
fonte