Suponha que eu tenha o seguinte modelo
onde , é um vetor de variáveis explicativas, são os parâmetros da função não linear e , onde é naturalmente matriz.
O objetivo é o usual para estimar e . A escolha óbvia é o método de máxima verossimilhança. A probabilidade de log para este modelo (assumindo que temos uma amostra ) parece
Agora isso parece simples, a probabilidade de log é especificada, inserida em dados e usa algum algoritmo para otimização não linear. O problema é como garantir que seja definitivo positivo. Usar, por exemplo, optim
em R (ou qualquer outro algoritmo de otimização não linear) não garante que seja definitivo positivo.
Portanto, a questão é como garantir que permaneça positivo definitivamente? Eu vejo duas soluções possíveis:
Reparametrize como que é uma matriz triangular superior ou simétrica. Então sempre será positivo-definido e pode ser irrestrito.
Use a probabilidade do perfil. Derive as fórmulas para e . Comece com e itere \ hat {\ Sigma} _j = \ hat \ Sigma (\ hat \ theta_ {j-1}) , \ hat {\ theta} _j = \ hat \ theta (\ hat \ Sigma_ {j -1}) até convergência.
Existe alguma outra maneira e quanto a essas duas abordagens, elas funcionarão, são padrão? Isso parece um problema bastante comum, mas a pesquisa rápida não me deu nenhuma dica. Eu sei que a estimativa bayesiana também seria possível, mas no momento eu não gostaria de me engajar nela.
Respostas:
Supondo que, ao construir a matriz de covariância, você cuide automaticamente do problema de simetria, sua probabilidade de log será quando não for definido positivamente devido ao termo no modelo certo? Para evitar um erro numérico se eu pré-calcularia e, se não for positivo, torne a probabilidade do log igual a -Inf, caso contrário continue. Você deve calcular o determinante de qualquer maneira, para que isso não esteja lhe custando nenhum cálculo extra.−∞ Σ logdet Σ det Σ<0 det Σ
fonte
Como se vê, você pode usar a probabilidade máxima do perfil para garantir as propriedades necessárias. Você pode provar que para um dado θ , l ( θ , Σ ) é maximizada porθ^ l(θ^,Σ)
Onde
Então é possível mostrar que
portanto, precisamos apenas maximizar
Naturalmente, neste caso, satisfará todas as propriedades necessárias. As provas são idênticas para o caso em que f é linear, o que pode ser encontrado na Análise de séries temporais por JD Hamilton, página 295; portanto, eu as omiti.Σ f
fonte
Uma alternativa para a parametrização da matriz de covariância é em termos de valores próprios e p ( p - 1 ) / 2 ângulos "dados" θ i j .λ1,...,λp p(p−1)/2 θij
Ou seja, podemos escrever
onde é ortonormal eG
com .λ1≥...≥λp≥0
Enquanto isso, pode ser parametrizado exclusivamente em termos de p ( p - 1 ) / 2 ângulos, θ i j , em que i = 1 , 2 , . . . , P - 1 e j = i , . . . , p - 1. [1]G p(p−1)/2 θij i=1,2,...,p−1 j=i,...,p−1
(detalhes a serem adicionados)
[1]: Hoffman, Raffenetti, Ruedenberg. "Generalização de ângulos de Euler para matrizes ortogonais em dimensões N". J. Math. Phys. 13, 528 (1972)
fonte
Along the lines of charles.y.zheng's solution, you may wish to modelΣ=Λ+CC⊤ , where Λ is a diagonal matrix, and C is a Cholesky factorization of a rank update to Λ . You only then need to keep the diagonal of Λ positive to keep Σ positive definite. That is, you should estimate the diagonal of Λ and the elements of C instead of estimating Σ .
fonte