Por que um teste de razão de verossimilhança é distribuído qui-quadrado?

34

Por que a estatística do teste de uma razão de verossimilhança é distribuída qui-quadrado?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Dr. Beeblebrox
fonte
3
Isso ajuda ?
Nick Sabbe
14
Obrigado pela referência. Aqui está uma de mim: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
5
Observe o "Traga seu senso de humor" lá. Não pretendia ser grosseiro, mas a resposta a essa pergunta seria relativamente entediante e consistiria basicamente no conteúdo desse artigo (ou em alguns dos melhores livros de estatística). Se você indicar seu problema preciso com a explicação de uma delas, terei prazer em ajudá-lo.
Nick Sabbe
2
Link direto para o artigo original de Wilks, sem paywall.
ayorgo em 25/08

Respostas:

23

Como mencionado por @Nick, isso é uma consequência do teorema de Wilks . Mas observe que a estatística do teste é assintoticamente distribuída com , não distribuída com χ 2 .χ2χ2

Estou muito impressionado com esse teorema, porque ele se mantém em um contexto muito amplo. Considere-se um modelo estatístico com probabilidade , onde y é as observações vector de n observações replicadas independentes de um parâmetro de distribuição com θ pertencente a uma subvariedade B um de R d com dimensão fraca ( B 1 ) = s . Seja B 0B 1 uma subvariedade com dimensão dim ( B 0l(θy)ynθB1Rddim(B1)=sB0B1 . Imagine que você está interessado em testar H 0 : { θ B 0 } .dim(B0)=mH0:{θB0}

A razão de verossimilhança é Defina odesviod(y)=2log(lr(y)). EntãoWilks teoremadiz que, sob premissas de regularidade usuais,d(y)é assintoticamenteχ2-distributed coms-mgraus de liberdade quandoH0é válido.

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Está comprovado no artigo original de Wilk mencionado por @Nick. Eu acho que este artigo não é fácil de ler. Wilks publicou um livro mais tarde, talvez com uma apresentação mais fácil de seu teorema. Uma breve prova heurística é dada no excelente livro de Williams .

Stéphane Laurent
fonte
3
Triste que este teorema não é mencionado na página da Wikipédia dedicada a Samuel S. Wilks
Stéphane Laurent
5
Oh, vamos lá Stephane. Esta é a Wikipedia, você pode editá-lo e melhorá-lo!
StasK 20/03
1
@StasK Eu sei disso, mas nunca tentei. E eu já gastam muito tempo da minha vida com estatísticas e matemática;)
Stéphane Laurent
Existe uma intuição de por que o 2 está na frente do log na definição do desvio?
User56834
@ Programmer2134 É derivado de uma expansão de taylor de segunda ordem.
19418 Frank Vel
25

Concordo com o comentário severo de Nick Sabbe, e minha resposta curta é: não é . Quero dizer, é apenas no modelo linear normal. Para absolutamente qualquer outro tipo de circunstância, a distribuição exata não é um . Em muitas situações, você pode esperar que as condições do teorema de Wilks sejam satisfeitas e, em seguida, assintoticamente, as estatísticas do teste da razão de verossimilhança de log convergem na distribuição para χ 2 . Limitações e violações das condições do teorema de Wilks são numerosas demais para serem desconsideradas.χ2χ2

  1. χ2kakvk,vki.i.d.χ12 (Rao & Scott). For i.i.d. data, ak=1, and the sum becomes the χ2. But for non-independent data, this is no longer the case.
  2. The theorem assumes the true parameter to be in the interior of the parameter space. If you have a Euclidean space to work with, that's not an issue. However, in some problems, the natural restrictions may arise, such as variance 0 or correlation between -1 and 1. If the true parameter is one the boundary, then the asymptotic distribution is a mixture of χ2 with different degrees of freedom, in the sense that the cdf of the test is the sum of such cdfs (Andrews 2001, plus two or three more of his papers from the same period, with history going back to Chernoff 1954).
  3. N(μ0,σ02) vs. the alternative of two distinct components fN(μ1,σ12)+(1f)N(μ2,σ22) with a mixing fraction f. The null is apparently nested in the alternative, but this can be expressed in a variety of ways: as f=0 (in which case the parameters μ1,σ12 are not identified), f=1 (in which case μ2,σ22 are not identified), or μ1=μ2,σ1=σ2 (in which case f is not identified). Here, you can't even say how many degrees of freedom your test should have, as you have different number of restrictions depending on how you parameterize the nesting. See the work of Jiahua Chen on this, e.g. CJS 2001.
  4. The χ2 may work OK if the distribution has been correctly specified. But if it was not, the test will break down again. In the (largely neglected by statisticians) subarea of multivariate analysis known as structural equation covariance modeling, a multivariate normal distribution is often assumed, but even if the structure is correct, the test will misbehave if the distribution is different. Satorra and Bentler 1995 show that the distribution will become kakvk,vki.i.d.χ12, the same story as with non-independent data in my point 1, but they've also demonstrated how the aks depend on the structure of the model and the fourth moments of the distribution.
  5. For finite samples, in a large class of situations likelihood ratio is Bartlett-correctible: while Prob[d(y)x]=F(x;χd2)[1+O(n1)] for a sample of size n, and F(x;χd2) being the distribution function of the χd2 distribution, for the regular likelihood problems you can find a constant b such that Prob[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)], i.e., to a higher order of accuracy. So the χ2 approximation for finite samples can be improved (and arguably should be improved if you know how). The constant b depends on the structure of the model, and sometimes on the auxiliary parameters, but if it can be consistently estimated, that works, too, in improving the order of coverage.

For a review of these and similar esoteric issues in likelihood inference, see Smith 1989.

StasK
fonte
1
Thanks! Very instructive. What do you mean by "it only is in the normal linear model" ? For a Fisher test when B0 and B1 are linear subspaces, then the deviance is a monotone function of the Fisher statistic, and it is only asymptotically χ2.
Stéphane Laurent
With known variance, I should add.
StasK