No famoso artigo de 1938 (" A distribuição de grandes amostras da razão de verossimilhança para testar hipóteses compostas ", Annals of Mathematics Statistics, 9: 60-62), Samuel Wilks derivou a distribuição assintótica de (razão de verossimilhança logarítmica ) para hipóteses aninhadas, supondo que a hipótese maior seja especificada corretamente. A distribuição limitante é (qui-quadrado) com graus de liberdade, onde é o número de parâmetros na hipótese maior e é o número de parâmetros livres na hipótese aninhada. No entanto, é supostamente conhecido que esse resultado não se aplica quando as hipóteses são especificadas incorretamente (ou seja, quando a hipótese maior não é a verdadeira distribuição dos dados amostrados).
Alguém pode explicar o porquê? Parece-me que a prova de Wilks ainda deve funcionar com pequenas modificações. Ele se baseia na normalidade assintótica da estimativa de máxima verossimilhança (MLE), que ainda é válida em modelos não especificados. A única diferença é a matriz de covariância do normal multivariado limitante: para modelos especificados corretamente, podemos aproximar a matriz de covariância com a matriz inversa de informações de Fisher , com erros de especificação, podemos usar a estimativa sanduíche da matriz de covariância ( ). Este último se reduz ao inverso da matriz de informações de Fisher quando o modelo é especificado corretamente (uma vez que ) AFAICT, a prova de Wilks não se importa de onde vem a estimativa da matriz de covariância, desde que tenhamos uma matriz de covariância assintótica invertível do normal multivariado para os MLEs ( no artigo de Wilks).
Respostas:
RV Foutz e RC Srivastava examinaram a questão em detalhes. O artigo de 1977 "O desempenho do teste da razão de verossimilhança quando o modelo está incorreto" contém uma declaração do resultado distributivo em caso de especificação incorreta, juntamente com um esboço muito breve da prova, enquanto o artigo de 1978 "A distribuição assintótica da razão de verossimilhança quando o modelo está incorreto " contém a prova - mas o último é digitado no datilógrafo à moda antiga (embora ambos os trabalhos usem a mesma notação, para que você possa combiná-los na leitura). Além disso, para algumas etapas da prova, eles se referem a um artigo de KP Roy "Uma nota sobre a distribuição assintótica da razão de verossimilhança" de 1957, que não parece estar disponível on-line, nem mesmo fechado.
No caso de especificação errônea de distribuição, se o MLE ainda for consistente e assintoticamente normal (o que nem sempre é o caso), a estatística LR segue assintoticamente uma combinação linear de qui-quadrados independentes (cada um com um grau de liberdade)
onde . Pode-se ver a "semelhança": em vez de um qui-quadrado com h - m graus de liberdade, temos h - m qui-quadrados cada um com um grau de liberdade. Mas a "analogia" pára por aí, porque uma combinação linear de qui-quadrados não tem uma densidade de forma fechada. Cada qui-quadrado escalonado é uma gama, mas com um diferente c i parâmetro que conduz a um parâmetro diferente escala para a gama -e a soma de tais gamas não é fechada em forma, embora os seus valores podem ser calculados.r=h−m h−m h−m ci
Para os constantes, temos c 1 ≥ c 2 ≥ . . . c r ≥ 0 , e eles são os autovalores de uma matriz ... qual matriz? Bem, usando a notação dos autores, defina Λ como o Hessian da probabilidade logarítmica e C como o produto externo do gradiente da probabilidade logarítmica (em termos de expectativa). Então V = Λ - 1 C ( Λ ′ ) - 1 é a matriz de variância-covariância assintótica do MLE.ci c1≥c2≥...cr≥0 Λ C V=Λ−1C(Λ′)−1
Em seguida, definir ser o r × r bloco superior diagonal de V .M r×r V
Escreva também em forma de blocoΛ
e conjunto ( W é o negativo da Schur Complemento de Λ ).W=−Λr×r+Λ′2Λ−13Λ2 W Λ
Em seguida, os 's são os valores próprios da matriz M W avaliado nos valores verdadeiros dos parâmetros.ci MW
ADENDO[9] [9] onde vemos que a estatística da razão de verossimilhança, se a especificação estiver correta, é apenas a soma das variáveis aleatórias normais padrão quadradas e, portanto, elas são distribuídas como um qui-quadrado com graus h - m de liberdade: (notação genérica )h−m h−m
Respondendo à observação válida do OP nos comentários (às vezes, de fato, as perguntas se tornam um trampolim para o compartilhamento de um resultado mais geral, e elas podem ser negligenciadas no processo), eis como segue a prova de Wilks: Wilks começa com a articulação distribuição normal do MLE e passa a derivar a expressão funcional da Razão de Verossimilhança. Até e incluindo sua eq. , a prova pode avançar mesmo se assumirmos que temos uma especificação incorreta de distribuição: como observa o OP, os termos da matriz de covariância de variância serão diferentes no cenário de especificação incorreta, mas tudo o que Wilks faz é usar derivadas e identificar termos assintoticamente desprezíveis. E então ele chega na eq. [ 9 ]
Porém, se tivermos uma especificação incorreta, os termos usados para dimensionar o MLE centralizado e ampliado não são mais os termos que vai tornar as variâncias de cada elemento igual à unidade, e assim transformar cada termo em um rv normal padrão e a soma para um qui-quadrado. E não são, porque esses termos envolvem osvalores esperadosdas segundas derivadas da probabilidade logarítmica ... mas o valor esperado só pode ser obtido com relação à verdadeira distribuição, uma vez que o MLE é uma função dos dados e da os dados seguem a distribuição verdadeira, enquanto as segundas derivadas da probabilidade logarítmica são calculadas com base na suposição de densidade incorreta.n−−√(θ^−θ)
which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. withh−m degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.
fonte
Wilks' 1938 proof doesn't work because Wilks usedJ−1
As the asymptotic covariance matrix in his proof. J−1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J−1KJ−1 . Wilks references the ij th element of J as cij in his proof.
By making the assumption that J−1KJ−1=J−1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J . So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.
fonte