Por que a prova de Wilks de 1938 não funciona para modelos mal especificados?

No famoso artigo de 1938 (" A distribuição de grandes amostras da razão de verossimilhança para testar hipóteses compostas ", Annals of Mathematics Statistics, 9: 60-62), Samuel Wilks derivou a distribuição assintótica de $2 \times LLR$ (razão de verossimilhança logarítmica ) para hipóteses aninhadas, supondo que a hipótese maior seja especificada corretamente. A distribuição limitante é $\chi^2$ (qui-quadrado) com $h-m$ graus de liberdade, onde $h$ é o número de parâmetros na hipótese maior e $m$ é o número de parâmetros livres na hipótese aninhada. No entanto, é supostamente conhecido que esse resultado não se aplica quando as hipóteses são especificadas incorretamente (ou seja, quando a hipótese maior não é a verdadeira distribuição dos dados amostrados).

Alguém pode explicar o porquê? Parece-me que a prova de Wilks ainda deve funcionar com pequenas modificações. Ele se baseia na normalidade assintótica da estimativa de máxima verossimilhança (MLE), que ainda é válida em modelos não especificados. A única diferença é a matriz de covariância do normal multivariado limitante: para modelos especificados corretamente, podemos aproximar a matriz de covariância com a matriz inversa de informações de Fisher $J^{-1}$ , com erros de especificação, podemos usar a estimativa sanduíche da matriz de covariância ( $J^{-1} K J^{-1}$ ). Este último se reduz ao inverso da matriz de informações de Fisher quando o modelo é especificado corretamente (uma vez que $J = K$ ) AFAICT, a prova de Wilks não se importa de onde vem a estimativa da matriz de covariância, desde que tenhamos uma matriz de covariância assintótica invertível do normal multivariado para os MLEs ( no artigo de Wilks). $c^{-1}$

hypothesis-testing model-selection likelihood-ratio asymptotics misspecification ratsalad
fonte

Quando o modelo maior é verdadeiro, mas o submodelo falso, a distribuição assintótica não é mais

(em modelos lineares com erros gaussianos, por exemplo, obtemos coisas como distribuições F não-centrais exatas, de modo que a distribuição assintótica deve ser algo como nc-

estou supondo). Então, por que esperaríamos que fosse

quando o modelo maior e o menor estão errados? Qual é exatamente a hipótese nula aqui para começar?

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

guy

Na hipótese nula especificada corretamente, ambos os modelos são "verdadeiros", mas o aninhado possui

parâmetros fixados nos valores verdadeiros. Na hipótese nula especificada incorretamente, ambos os modelos são "falsos", mas o aninhado possui

parâmetros fixados nos valores pseudo-verdadeiros. ("Valor pseudo-verdadeiro" sendo o valor assintótico do parâmetro que minimiza a distância Kullback-Liebler entre o modelo não especificado e o modelo verdadeiro). Portanto, seu exemplo do F não central não é relevante, pois é a distribuição em que a hipótese nula aqui é falsa.

m

$m$

m

$m$

ratsalad

Desculpe, eu deveria ter dito que a hipótese aninhada tem parâmetros

fixados nos valores verdadeiros.

h - m

$h-m$

ratsalad

Entendo que um modelo nulo com especificação errada possa ser especificado de várias maneiras. Por exemplo: distribuição incorreta de resíduos, dados têm heterocedasticidade, efeitos não são aditivos, etc. No entanto, concordo que se pelo menos um dos parâmetros

"testados" for fixado em um valor falso (por exemplo, o valor pseudo-verdadeiro) , esse é um exemplo de um modelo nulo especificado incorretamente.

h - m

$h - m$

Rcorty 16/05

Respostas:

RV Foutz e RC Srivastava examinaram a questão em detalhes. O artigo de 1977 "O desempenho do teste da razão de verossimilhança quando o modelo está incorreto" contém uma declaração do resultado distributivo em caso de especificação incorreta, juntamente com um esboço muito breve da prova, enquanto o artigo de 1978 "A distribuição assintótica da razão de verossimilhança quando o modelo está incorreto " contém a prova - mas o último é digitado no datilógrafo à moda antiga (embora ambos os trabalhos usem a mesma notação, para que você possa combiná-los na leitura). Além disso, para algumas etapas da prova, eles se referem a um artigo de KP Roy "Uma nota sobre a distribuição assintótica da razão de verossimilhança" de 1957, que não parece estar disponível on-line, nem mesmo fechado.

No caso de especificação errônea de distribuição, se o MLE ainda for consistente e assintoticamente normal (o que nem sempre é o caso), a estatística LR segue assintoticamente uma combinação linear de qui-quadrados independentes (cada um com um grau de liberdade)

- 2 \ln λ \overset{d}{\to} \sum_{i = 1}^{r} c_{i} χ_{i}^{2}

$-2\ln \lambda \xrightarrow{d} \sum_{i=1}^{r}c_i\mathcal \chi^2_i$

onde . Pode-se ver a "semelhança": em vez de um qui-quadrado com graus de liberdade, temos qui-quadrados cada um com um grau de liberdade. Mas a "analogia" pára por aí, porque uma combinação linear de qui-quadrados não tem uma densidade de forma fechada. Cada qui-quadrado escalonado é uma gama, mas com um diferente parâmetro que conduz a um parâmetro diferente escala para a gama -e a soma de tais gamas não é fechada em forma, embora os seus valores podem ser calculados. $r=h-m$ $h-m$ $h-m$ $c_i$

Para os constantes, temos , e eles são os autovalores de uma matriz ... qual matriz? Bem, usando a notação dos autores, defina como o Hessian da probabilidade logarítmica e como o produto externo do gradiente da probabilidade logarítmica (em termos de expectativa). Então é a matriz de variância-covariância assintótica do MLE. $c_i$ $c_1 \geq c_2\geq ...c_r \geq0$ $\Lambda$ $C$ $V = \Lambda^{-1} C (\Lambda')^{-1}$

Em seguida, definir ser o bloco superior diagonal de . $M$ $r \times r$ $V$

Escreva também em forma de bloco $\Lambda$

Λ = [\begin{matrix} Λ_{r \times r} & Λ_{2}^{'} \\ Λ_{2} & Λ_{3} \end{matrix}]

$\Lambda =\left [\begin {matrix} \Lambda_{r\times r} & \Lambda_2'\\ \Lambda_2 & \Lambda_3\\ \end{matrix}\right]$

e conjunto ( é o negativo da Schur Complemento de ). $W = -\Lambda_{r\times r}+\Lambda_2'\Lambda_3^{-1}\Lambda_2$ $W$ $\Lambda$

Em seguida, os 's são os valores próprios da matriz avaliado nos valores verdadeiros dos parâmetros. $c_i$ $MW$

ADENDO
Respondendo à observação válida do OP nos comentários (às vezes, de fato, as perguntas se tornam um trampolim para o compartilhamento de um resultado mais geral, e elas podem ser negligenciadas no processo), eis como segue a prova de Wilks: Wilks começa com a articulação distribuição normal do MLE e passa a derivar a expressão funcional da Razão de Verossimilhança. Até e incluindo sua eq. , a prova pode avançar mesmo se assumirmos que temos uma especificação incorreta de distribuição: como observa o OP, os termos da matriz de covariância de variância serão diferentes no cenário de especificação incorreta, mas tudo o que Wilks faz é usar derivadas e identificar termos assintoticamente desprezíveis. E então ele chega na eq. $[9]$ $[9]$ onde vemos que a estatística da razão de verossimilhança, se a especificação estiver correta, é apenas a soma das variáveis aleatórias normais padrão quadradas e, portanto, elas são distribuídas como um qui-quadrado com graus de liberdade: (notação genérica ) $h-m$ $h-m$

- 2 \ln λ = \sum_{i = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{σ_{i}})}^{2} \overset{d}{\to} χ_{h - m}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 \xrightarrow{d} \mathcal \chi^2_{h-m}$

Porém, se tivermos uma especificação incorreta, os termos usados para dimensionar o MLE centralizado e ampliado não são mais os termos que vai tornar as variâncias de cada elemento igual à unidade, e assim transformar cada termo em um rv normal padrão e a soma para um qui-quadrado. E não são, porque esses termos envolvem osvalores esperadosdas segundas derivadas da probabilidade logarítmica ... mas o valor esperado só pode ser obtido com relação à verdadeira distribuição, uma vez que o MLE é uma função dos dados e da os dados seguem a distribuição verdadeira, enquanto as segundas derivadas da probabilidade logarítmica são calculadas com base na suposição de densidade incorreta. $\sqrt n(\hat \theta -\theta)$

- 2 \ln λ = \sum_{i = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{a_{i}})}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{a_i}\right)^2$

- 2 \ln λ = \sum_{i = 1}^{h - m} \frac{σ_{i}^{2}}{a_{i}^{2}} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{σ_{i}})}^{2} = \sum_{i = 1}^{h - m} \frac{σ_{i}^{2}}{a_{i}^{2}} χ_{1}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\mathcal \chi^2_1$

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with $h-m$ degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.

Alecos Papadopoulos
fonte

So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.

ratsalad

Wilks' 1938 proof doesn't work because Wilks used $J^{-1}$ As the asymptotic covariance matrix in his proof. $J^{-1}$ is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator $J^{-1} K J^{-1}$ . Wilks references the $ij$ th element of $J$ as $c_{ij}$ in his proof. By making the assumption that $J^{-1}KJ^{-1} = J^{-1}$ Wilks (1938) is assuming that $K=J$ holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then $K=J$ . So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

RMG
fonte