Suponha que eu tenha um conjunto de observações univariadas independentes e identicamente distribuídas duas hipóteses sobre como x foi gerado:
: x é extraído de uma única distribuição gaussiana com média e variância desconhecidas.
: x é extraído de uma mistura de dois gaussianos com média desconhecida, variância e coeficiente de mistura.
Se bem entendi, esses são modelos aninhados, pois o modelo que representa pode ser descrito em termos de H A, se você restringir os parâmetros dos dois gaussianos a serem idênticos ou restringir o coeficiente de mistura a zero para um dos dois gaussianos .
Portanto, parece que você deve poder usar o algoritmo EM para estimar os parâmetros de e, em seguida, usar o Teorema de Wilks para determinar se a probabilidade dos dados em H A é significativamente maior do que em H 0 . Há um pequeno salto de fé na suposição de que o algoritmo EM convergirá para a probabilidade máxima aqui, mas é o que estou disposto a fazer.
Eu tentei isso em uma simulação de monte carlo, assumindo que tenha 3 graus de liberdade a mais do que H 0 (a média e a variação para o segundo parâmetro gaussiano e de mistura). Quando simulei dados de H 0 , obtive uma distribuição de valor P substancialmente não uniforme e enriquecida para pequenos valores P. (Se o EM não estivesse convergindo para a verdadeira probabilidade máxima, seria exatamente o oposto.) O que há de errado com minha aplicação do teorema de Wilks que está criando esse viés?
fonte