Suponha que eu observe vetores variáveis independentes e e a variável dependente . Gostaria de ajustar um modelo do formulário: que é uma função com duas funções diferenciáveis de valor positivo, é um parâmetro de escala desconhecido e é uma variável aleatória gaussiana de média variável e variação zero (assumida como independente de e ). Essa é essencialmente a configuração do teste de heterocedasticidade de Koenker (pelo menos até onde eu entendo).→ z yy= → x ⊤ → β 1 +σg( → z ⊤ → β 2 )ϵ,gσϵ → x → z
Tenho de observações de e , e gostaria de estimar e . Eu tenho alguns problemas, no entanto:→ x , → z y → β 1 → β 2
- Não sei ao certo como colocar o problema de estimativa como algo como mínimos quadrados (presumo que exista um truque conhecido). Meu primeiro palpite seria algo como
mas eu não tenho certeza de como resolver isso numericamente (talvez um método quase-Newton iterativo possa resolver).
- Supondo que eu possa colocar o problema de maneira sã e encontrar algumas estimativas , eu gostaria de saber a distribuição das estimativas para que, por exemplo, eu possa realizar testes de hipótese. Eu ficaria bem em testar os dois vetores de coeficiente separadamente, mas preferiria uma maneira de testar, por exemplo , para determinado . → w 1 , → w 2 , c
Respostas:
Em um contexto um pouco mais geral com um vetor dimensional de observações- (as respostas ou variáveis dependentes), e matriz de observações- (covariáveis ou variáveis dependentes) e os parâmetros tais que então a probabilidade de menos log é Na pergunta do OP, é diagonal comY n y X n×p x θ=(β1,β2,σ) Y∼N(Xβ1,Σ(β2,σ))
A última sugestão me agrada porque se baseia em soluções que eu já conheço bem. Além disso, a primeira iteração é algo que eu consideraria fazer de qualquer maneira. Ou seja, primeiro calcule uma estimativa inicial de por mínimos quadrados comuns, ignorando a heterocedasticidade potencial, e depois ajuste um gamma glm aos resíduos quadrados para obter uma estimativa inicial de apenas para verificar se o modelo mais complicado parece valer a pena. Iterações que incorporam a heterocedasticidade na solução de mínimos quadrados, uma vez que os pesos podem melhorar a estimativa.β 2 -β1 β2 −
Em relação à segunda parte da pergunta, eu provavelmente consideraria calcular um intervalo de confiança para a combinação linear usando os assintóticos padrão do MLE (verificando com simulações se os assintóticos funcionam) ou usando bootstrap.wT1β1+wT2β2
Edit: Por padrão MLE assintóticos, quero dizer usando a aproximação normal multivariada para a distribuição do MLE com matriz de covariância a informação inversa de Fisher. A informação de Fisher é, por definição, a matriz de covariância do gradiente de . Depende em geral dos parâmetros. Se você puder encontrar uma expressão analítica para essa quantidade, tente conectar o MLE. Como alternativa, você pode estimar as informações de Fisher pelas informações observadas de Fisher, que é o Hessian de no MLE. Seu parâmetro de interesse é uma combinação linear dos parâmetros nos doisl β ( y i , x i , z i )l l β -vetores, portanto, a partir do normal multivariado aproximado do MLE, você pode encontrar uma aproximação normal da distribuição dos estimadores, conforme descrito aqui . Isso gera um erro padrão aproximado e você pode calcular intervalos de confiança. Está bem descrito em muitos livros de estatística (matemática), mas uma apresentação razoavelmente acessível que posso recomendar é In All Likelihood, de Yudi Pawitan. De qualquer forma, a derivação formal da teoria assintótica é bastante complicada e depende de várias condições de regularidade, e fornece apenas informações assintóticas válidas.distribuições. Portanto, em caso de dúvida, eu sempre faria algumas simulações com um novo modelo para verificar se posso confiar nos resultados para parâmetros realísticos e tamanhos de amostra. Um bootstrap simples e não paramétrico, no qual são amostrados os triplos do conjunto de dados observado com substituição, pode ser uma alternativa útil se o procedimento de ajuste não consumir muito tempo.(yi,xi,zi)
fonte