Por que a prova de Wilks de 1938 não funciona para modelos mal especificados?

23

No famoso artigo de 1938 (" A distribuição de grandes amostras da razão de verossimilhança para testar hipóteses compostas ", Annals of Mathematics Statistics, 9: 60-62), Samuel Wilks derivou a distribuição assintótica de 2×LLR (razão de verossimilhança logarítmica ) para hipóteses aninhadas, supondo que a hipótese maior seja especificada corretamente. A distribuição limitante é χ2 (qui-quadrado) com hm graus de liberdade, onde h é o número de parâmetros na hipótese maior e mé o número de parâmetros livres na hipótese aninhada. No entanto, é supostamente conhecido que esse resultado não se aplica quando as hipóteses são especificadas incorretamente (ou seja, quando a hipótese maior não é a verdadeira distribuição dos dados amostrados).

Alguém pode explicar o porquê? Parece-me que a prova de Wilks ainda deve funcionar com pequenas modificações. Ele se baseia na normalidade assintótica da estimativa de máxima verossimilhança (MLE), que ainda é válida em modelos não especificados. A única diferença é a matriz de covariância do normal multivariado limitante: para modelos especificados corretamente, podemos aproximar a matriz de covariância com a matriz inversa de informações de Fisher J1 , com erros de especificação, podemos usar a estimativa sanduíche da matriz de covariância ( J1KJ1 ). Este último se reduz ao inverso da matriz de informações de Fisher quando o modelo é especificado corretamente (uma vez que J=K) AFAICT, a prova de Wilks não se importa de onde vem a estimativa da matriz de covariância, desde que tenhamos uma matriz de covariância assintótica invertível do normal multivariado para os MLEs ( no artigo de Wilks). c1

ratsalad
fonte
Quando o modelo maior é verdadeiro, mas o submodelo falso, a distribuição assintótica não é mais (em modelos lineares com erros gaussianos, por exemplo, obtemos coisas como distribuições F não-centrais exatas, de modo que a distribuição assintótica deve ser algo como nc- χ 2 estou supondo). Então, por que esperaríamos que fosse χ 2 quando o modelo maior e o menor estão errados? Qual é exatamente a hipótese nula aqui para começar? χ2χ2χ2
guy
Na hipótese nula especificada corretamente, ambos os modelos são "verdadeiros", mas o aninhado possui parâmetros fixados nos valores verdadeiros. Na hipótese nula especificada incorretamente, ambos os modelos são "falsos", mas o aninhado possui m parâmetros fixados nos valores pseudo-verdadeiros. ("Valor pseudo-verdadeiro" sendo o valor assintótico do parâmetro que minimiza a distância Kullback-Liebler entre o modelo não especificado e o modelo verdadeiro). Portanto, seu exemplo do F não central não é relevante, pois é a distribuição em que a hipótese nula aqui é falsa. mm
ratsalad
Desculpe, eu deveria ter dito que a hipótese aninhada tem parâmetros fixados nos valores verdadeiros. hm
ratsalad
Entendo que um modelo nulo com especificação errada possa ser especificado de várias maneiras. Por exemplo: distribuição incorreta de resíduos, dados têm heterocedasticidade, efeitos não são aditivos, etc. No entanto, concordo que se pelo menos um dos parâmetros "testados" for fixado em um valor falso (por exemplo, o valor pseudo-verdadeiro) , esse é um exemplo de um modelo nulo especificado incorretamente. hm
Rcorty 16/05

Respostas:

19

RV Foutz e RC Srivastava examinaram a questão em detalhes. O artigo de 1977 "O desempenho do teste da razão de verossimilhança quando o modelo está incorreto" contém uma declaração do resultado distributivo em caso de especificação incorreta, juntamente com um esboço muito breve da prova, enquanto o artigo de 1978 "A distribuição assintótica da razão de verossimilhança quando o modelo está incorreto " contém a prova - mas o último é digitado no datilógrafo à moda antiga (embora ambos os trabalhos usem a mesma notação, para que você possa combiná-los na leitura). Além disso, para algumas etapas da prova, eles se referem a um artigo de KP Roy "Uma nota sobre a distribuição assintótica da razão de verossimilhança" de 1957, que não parece estar disponível on-line, nem mesmo fechado.

No caso de especificação errônea de distribuição, se o MLE ainda for consistente e assintoticamente normal (o que nem sempre é o caso), a estatística LR segue assintoticamente uma combinação linear de qui-quadrados independentes (cada um com um grau de liberdade)

2lnλdi=1rciχi2

onde . Pode-se ver a "semelhança": em vez de um qui-quadrado com h - m graus de liberdade, temos h - m qui-quadrados cada um com um grau de liberdade. Mas a "analogia" pára por aí, porque uma combinação linear de qui-quadrados não tem uma densidade de forma fechada. Cada qui-quadrado escalonado é uma gama, mas com um diferente c i parâmetro que conduz a um parâmetro diferente escala para a gama -e a soma de tais gamas não é fechada em forma, embora os seus valores podem ser calculados.r=hmhmhmci

Para os constantes, temos c 1c 2. . . c r0 , e eles são os autovalores de uma matriz ... qual matriz? Bem, usando a notação dos autores, defina Λ como o Hessian da probabilidade logarítmica e C como o produto externo do gradiente da probabilidade logarítmica (em termos de expectativa). Então V = Λ - 1 C ( Λ ) - 1 é a matriz de variância-covariância assintótica do MLE.cic1c2...cr0ΛCV=Λ1C(Λ)1

Em seguida, definir ser o r × r bloco superior diagonal de V . Mr×rV

Escreva também em forma de blocoΛ

Λ=[Λr×rΛ2Λ2Λ3]

e conjunto ( W é o negativo da Schur Complemento de Λ ).W=Λr×r+Λ2Λ31Λ2WΛ

Em seguida, os 's são os valores próprios da matriz M W avaliado nos valores verdadeiros dos parâmetros.ciMW

ADENDO
Respondendo à observação válida do OP nos comentários (às vezes, de fato, as perguntas se tornam um trampolim para o compartilhamento de um resultado mais geral, e elas podem ser negligenciadas no processo), eis como segue a prova de Wilks: Wilks começa com a articulação distribuição normal do MLE e passa a derivar a expressão funcional da Razão de Verossimilhança. Até e incluindo sua eq. , a prova pode avançar mesmo se assumirmos que temos uma especificação incorreta de distribuição: como observa o OP, os termos da matriz de covariância de variância serão diferentes no cenário de especificação incorreta, mas tudo o que Wilks faz é usar derivadas e identificar termos assintoticamente desprezíveis. E então ele chega na eq. [ 9 ][9][9]onde vemos que a estatística da razão de verossimilhança, se a especificação estiver correta, é apenas a soma das variáveis ​​aleatórias normais padrão quadradas e, portanto, elas são distribuídas como um qui-quadrado com graus h - m de liberdade: (notação genérica )hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

Porém, se tivermos uma especificação incorreta, os termos usados ​​para dimensionar o MLE centralizado e ampliado não são mais os termos que vai tornar as variâncias de cada elemento igual à unidade, e assim transformar cada termo em um rv normal padrão e a soma para um qui-quadrado. E não são, porque esses termos envolvem osvalores esperadosdas segundas derivadas da probabilidade logarítmica ... mas o valor esperado só pode ser obtido com relação à verdadeira distribuição, uma vez que o MLE é uma função dos dados e da os dados seguem a distribuição verdadeira, enquanto as segundas derivadas da probabilidade logarítmica são calculadas com base na suposição de densidade incorreta. n(θ^θ)

2lnλ=i=1hm(nθ^iθiai)2

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.

Alecos Papadopoulos
fonte
1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad
2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

RMG
fonte