O que pode dar errado com o MLE se eu substituir algumas estimativas de primeiro estágio em vez de alguns parâmetros?

7

Suponha que inicialmente eu esteja lidando com a função de probabilidade de , em que .logL(θ1,,θm,θm+1,,θk)θjR

Suponha que, por qualquer motivo, eu tenha decidido inserir no algumas estimativas de primeiro estágio , , obtidas de alguma outra maneira e depois maximizar sobre , , . Todos os , \ ldots , \ tilde {\ theta} _k são estimadores consistentes dos valores dos parâmetros verdadeiros \ theta_ {0, m + 1} , \ ldots , \ theta_ {0, k} .logLθ~m+1θ~klogLθ1θmθ~m+1θ~kθ0,m+1θ0,k

Minha pergunta é: o que pode dar errado com o MLE nesse caso? O estimador MLE , \ ldots , \ hat {\ theta} _m tem as mesmas propriedades assintóticas de antes? Alguma coisa depende das taxas de convergência de \ tilde {\ theta} _ {m + 1} , \ ldots , \ tilde {\ theta} _k ?θ^1θ^mθ~m+1θ~k

Alik
fonte
2
Boa pergunta. Estou trabalhando em algo que se enquadra nessa categoria. Acho que esse tipo de coisa é chamada de "probabilidade de plug-in", mas estou interessado em ver quais respostas você obtém. Eu acho que este papel pode ser relevante: sciencedirect.com/science/article/pii/S0304414913000811
gammer

Respostas:

3

Sua técnica está maximizando essencialmente a probabilidade condicional de log, condicionada a . A probabilidade máxima completa de log é o máximo desse máximo condicional em todos esses outros parâmetros. Isso é usado com muita frequência para produzir verificações de probabilidade, especialmente quando e existe apenas um parâmetro condicional. A probabilidade máxima de log como uma função de é útil para definir um intervalo de confiança em .θ~m+1,,θ~kk=m+1θ~kθk

Filosoficamente, é sempre o caso de haver parâmetros condicionais que são corrigidos - você sempre pode adicionar parâmetros extras ao seu modelo. Toda função de probabilidade é uma função de probabilidade condicional e vice-versa; a maximização de uma função condicional de probabilidade de log possui todas as propriedades estatísticas que você pode esperar da maximização de uma função de probabilidade. As únicas diferenças são de natureza não estatística, lidando com as suposições por trás da maximização. Por exemplo, quão razoável é simplificar o modelo? Normalmente, você gostaria de saber que possui um valor exato paraθ~kou que exista algum argumento específico do domínio (não estatístico) para que ele tenha um determinado valor. Por exemplo, no OLS (um tipo de maximização de probabilidade), supõe-se que os erros sejam simétricos, gaussianos e independentes das variáveis ​​explicativas (por exemplo, não heterocedásticas). Você sempre pode adicionar parâmetros de assimetria, não gaussianidade e heterocedência, mas isso é frequentemente considerado desnecessário. *

No seu caso, você apenas tem uma estimativa estatística, com algum intervalo de confiança. A questão crítica é se suas estimativas são obtidas dos mesmos dados usados ​​durante a maximização da probabilidade ou de um conjunto de dados independente. Neste último caso, você está executando um procedimento muito comum. Um procedimento ad-hoc que você pode tentar propagar incertezas de para o resultado final pode ser uma amostra de seuθ~θ~de dentro de seus intervalos de confiança em uma espécie de auto-inicialização paramétrica e maximize a probabilidade condicional de log para cada amostra, gerando um intervalo de confiança expandido. Outra técnica é deixar os parâmetros flutuarem na probabilidade de log, mas adicionar termos de restrição para seus intervalos de confiança; por exemplo, multiplicando a probabilidade por um pdf gaussiano , ignorando constantes irrelevantes.exp((θkθ~k)2/2σk2)

Por outro lado, se suas estimativas são feitas com os mesmos dados usados ​​na maximização da probabilidade, a sua é um procedimento mais questionável. Tomando o conjunto de como dados fixos, a maximização condicional da probabilidade de log é estatisticamente válida, mas não é garantido que ele funcione bem com os intervalos de confiança que você tiver para o seu . Os procedimentos acima para adicionar termos de restrição à probabilidade ou amostragem parametricamente dos parâmetros são inválidos porque os parâmetros são então penalizados duas vezes pelo mesmo conjunto de dados. Você pode digitalizar através deθ~θ~θ~θ~m+1,,θ~k, em uma grade que cobre um intervalo de confiança razoável. Somente você pode determinar se isso é melhor / mais fácil do que simplesmente maximizar toda a probabilidade de log.

NOTAS

  • Talvez não seja o melhor exemplo, porque geralmente é recomendado que você estude os gráficos / resíduos de diagnóstico para uma regressão do OLS para verificar essas coisas. Os melhores exemplos que eu poderia apresentar são específicos do domínio.
jwimberley
fonte