Jeffrey Wooldridge em sua Análise Econométrica de Dados de Painel e Seção Transversal (página 357) diz que o Hessian empírico "não é garantido que seja definido positivo, ou mesmo semidefinido positivo, para a amostra em particular com a qual estamos trabalhando".
Isso me parece errado, pois (problemas numéricos à parte) o Hessian deve ser positivo semidefinido como resultado da definição do estimador M como o valor do parâmetro que minimiza a função objetivo da amostra em questão e o fato bem conhecido de que no mínimo (local), o hessiano é semidefinido positivo.
Meu argumento está certo?
[EDIT: A declaração foi removida no 2º ed. do livro. Veja o comentário.]
ANTECEDENTES Suponha que seja um estimador obtido minimizando que denota a ésima observação.1wii
Vamos denotar o Hessian de por ,
A covariância assintótica de θ n envolve E [ H ( q , q 0 ) ] onde θ 0 é o verdadeiro valor do parâmetro. Uma maneira de estimar isso é usar o método Hesssiano empírico
É o definiteness de H que está em questão.
fonte
Respostas:
Eu acho que você está certo. Vamos destilar seu argumento em sua essência:
minimiza a funçãoQdefinido comoQ(θ)=1θˆN Q Q(θ)=1N∑Ni=1q(wi,θ).
Seja o hessiano de Q , de onde H ( θ ) = ∂ 2 QH Q por definição e isso, por sua vez, por linearidade de diferenciação, é igual a1H(θ)=∂2Q∂θi∂θj .1N∑Ni=1H(wi,θn)
Assumindo q N reside no interior do domínio de Q , em seguida, H ( θ N ) deve ser positivo semi-definida.θˆN Q H(θˆN)
Essa é apenas uma afirmação sobre a função : como ela é definida é meramente uma distração, exceto na medida em que a diferenciabilidade assumida de q de segunda ordem em relação ao seu segundo argumento ( θ ) assegura a diferenciabilidade de Q de segunda ordem .Q q θ Q
Encontrar estimadores-M pode ser complicado. Considere estes dados fornecidos pelo @mpiktas:
O procedimento R para encontrar o estimador M com produziu a solução ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 ) . O valor da função objetivo (a média dos q 's) nesse ponto é igual a 62,3542. Aqui está um gráfico do ajuste:q((x,y),θ)=(y−c1xc2)4 (c1,c2) (−114.91316,−32.54386) q
Aqui está um gráfico da função objetivo (log) em uma vizinhança desse ajuste:
Algo é suspeito aqui: os parâmetros do ajuste estão muito distantes dos parâmetros usados para simular os dados (próximo ) e não parecemos estar no mínimo: estamos em um vale extremamente raso, inclinado para valores maiores de ambos os parâmetros:(0.3,0.2)
O determinante negativo do Hessian neste momento confirma que este não é um mínimo local! No entanto, quando você olha para os rótulos do eixo z, é possível ver que essa função é plana com precisão de cinco dígitos em toda a região, porque é igual a uma constante 4.1329 (o logaritmo de 62.354). Isso provavelmente levou o minimizador da função R (com suas tolerâncias padrão) a concluir que estava próximo do mínimo.
De fato, a solução está longe deste ponto. Para ter certeza de encontrá-lo, empreguei o método " Eixo Principal " computacionalmente caro, mas altamente eficaz , no Mathematica , usando precisão de 50 dígitos (base 10) para evitar possíveis problemas numéricos. Ele encontra um mínimo próximo onde a função objetivo tem o valor 58.292655: cerca de 6% menor que o "mínimo" encontrado por R. Esse mínimo ocorre em uma seção extremamente plana , mas posso fazer com que pareça (apenas por pouco) um mínimo verdadeiro, com contornos elípticos, exagerando a c 2(c1,c2)=(0.02506,7.55973) c2 direção na trama:
Os contornos variam de 58,29266 no meio até 58,29284 nos cantos (!). Aqui está a visualização 3D (novamente do objetivo do log):
Aqui, o hessiano é positivo-definido: seus valores próprios são 55062.02 e 0.430978. Portanto, este ponto é um mínimo local (e provavelmente um mínimo global). Aqui está o ajuste a que corresponde:
Eu acho que é melhor que o outro. Os valores dos parâmetros são certamente mais realistas e está claro que não conseguiremos fazer muito melhor com essa família de curvas.
Existem lições úteis que podemos extrair deste exemplo:
fonte
Mais adiante, em seu livro, Wooldridge dá exemplos de estimativas de Hessian que são garantidas como definidas numericamente positivas. Na prática, a definição não positiva de Hessian deve indicar que a solução está no ponto limite ou o algoritmo não conseguiu encontrar a solução. O que geralmente é mais uma indicação de que o modelo ajustado pode ser inadequado para um dado dado.
Aqui está o exemplo numérico. Gero um problema de mínimos quadrados não lineares:
set.seed(3)
Escolhi a função objetiva quadrado da função objetiva de mínimos quadrados não linear usual:
Here is the code in R for optimising function, its gradient and hessian.
First test that gradient and hessian works as advertised.
The hessian is zero, so it is positive semi-definite. Now for the values ofx and y given in the link we get
Gradient is zero, but the hessian is non positive.
Note: This is my third attempt to give an answer. I hope I finally managed to give precise mathematical statements, which eluded me in the previous versions.
fonte
O hessian é indefinido em um ponto de sela. É possível que este seja o único ponto estacionário no interior do espaço de parâmetros.
Atualização: Deixe-me elaborar. Primeiro, vamos supor que o Hessian empírico exista em toda parte.
E seθ^n é um mínimo local (ou mesmo global) de ∑Euq( wEu, ⋅ ) e no interior do espaço de parâmetros (assumido como um conjunto aberto), então necessariamente o Hessian ( 1 / N) ∑EuH( wEu, θ^n) é semidefinido positivo. Se não entãoθ^n não é um mínimo local. Isso decorre das condições de otimização de segunda ordem - localmente∑Euq( wEu, ⋅ ) não deve diminuir em nenhuma direção longe do θ^n .
Uma fonte da confusão pode ser a definição "funcional" de um estimador-M. Embora, em princípio, um estimador M deva ser definido comoargminθ∑Euq( wEu, θ ) , também pode ser definido como uma solução para a equação
Na prática, mesmo um hessiano definido positivo, quase singular ou mal condicionado, sugeriria que o estimador é ruim e você precisa se preocupar mais do que estimar sua variação.
fonte
Tem havido muita discussão nesse tópico sobre se o Hessian deve ser positivo (semi) definido no mínimo local. Então, farei uma declaração clara sobre isso.
Presumindo que a função objetivo e todas as funções restritivas sejam duas vezes continuamente diferenciáveis, então, em qualquer mínimo local, o hessiano do lagrangiano projetado no espaço nulo do jacobiano de restrições ativas deve ser semidefinido positivo. Ou seja, seZ é uma base para o espaço nulo do jacobiano de restrições ativas, então ZT* ( Hesse de Lagrangeanos ) * Z deve ser positivo semidefinido. Isso deve ser definido positivamente para um mínimo local estrito.
Portanto, o hessiano da função objetivo em um problema restrito com restrição (s) ativa (s) não precisa ser positivo semidefinido se houver restrições ativas.
Notas:
1) As restrições ativas consistem em todas as restrições de igualdade, mais as restrições de desigualdade que são satisfeitas com a igualdade.
2) Veja a definição do Lagrangiano em https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .
3) Se todas as restrições são lineares, então o Hessiano da Lagrangiana = Hessiano da função objetivo, porque as segundas derivadas das funções lineares são zero. Mas você ainda precisa fazer o jazz de projeção se alguma dessas restrições estiver ativa. Observe que restrições de limite inferior ou superior são casos particulares de restrições de desigualdade linear. Se as únicas restrições ativas são restrições vinculadas, a projeção do Hessian no espaço nulo do Jacobiano de restrições ativas equivale a eliminar as linhas e colunas do Hessian correspondentes a esses componentes em seus limites.
4) Como os multiplicadores de Lagrange de restrições inativas são zero, se não houver restrições ativas, o Hessian do Lagrangiano = o Hessian da função objetivo e a matriz Identity são a base do espaço nulo do Jacobiano de restrições ativas, que resulta na simplificação do critério, sendo a condição familiar de que o hessiano da função objetivo seja semidefinido positivo em um mínimo local (positivo positivo se for um mínimo local estrito).
fonte
As respostas positivas acima são verdadeiras, mas deixam de fora a suposição crucial de identificação - se o seu modelo não for identificado (ou apenas definido), você poderá, como Wooldridge indicou corretamente, encontrar-se com um Hessian empírico não-PSD. Basta executar um modelo psicométrico / econométrico que não seja um brinquedo e ver por si mesmo.
fonte