Encontrando número de gaussianos em uma mistura finita com o teorema de Wilks?

11

Suponha que eu tenha um conjunto de observações univariadas independentes e identicamente distribuídas duas hipóteses sobre como x foi gerado:xx

: x é extraído de uma única distribuição gaussiana com média e variância desconhecidas.H0 0x

: x é extraído de uma mistura de dois gaussianos com média desconhecida, variância e coeficiente de mistura.HUMAx

Se bem entendi, esses são modelos aninhados, pois o modelo que representa pode ser descrito em termos de H A, se você restringir os parâmetros dos dois gaussianos a serem idênticos ou restringir o coeficiente de mistura a zero para um dos dois gaussianos . H0 0HUMA

Portanto, parece que você deve poder usar o algoritmo EM para estimar os parâmetros de e, em seguida, usar o Teorema de Wilks para determinar se a probabilidade dos dados em H A é significativamente maior do que em H 0 . Há um pequeno salto de fé na suposição de que o algoritmo EM convergirá para a probabilidade máxima aqui, mas é o que estou disposto a fazer.HUMAHUMAH0 0

Eu tentei isso em uma simulação de monte carlo, assumindo que tenha 3 graus de liberdade a mais do que H 0 (a média e a variação para o segundo parâmetro gaussiano e de mistura). Quando simulei dados de H 0 , obtive uma distribuição de valor P substancialmente não uniforme e enriquecida para pequenos valores P. (Se o EM não estivesse convergindo para a verdadeira probabilidade máxima, seria exatamente o oposto.) O que há de errado com minha aplicação do teorema de Wilks que está criando esse viés?HUMAH0 0H0 0

dsimcha
fonte

Respostas:

8

Com uma especificação cuidadosa de como a hipótese nula está contida no modelo de mistura de dois componentes, é possível ver qual poderia ser o problema. Se os cinco parâmetros no modelo de mistura são μ1,μ2,σ1,σ2,ρ

H0 0:(μ1=μ2 e σ1=σ2) ou ρ{0 0,1}.
ρρ

A hipótese nula é um subconjunto complicado do espaço completo dos parâmetros e, sob o nulo, os parâmetros nem são identificáveis. As suposições usuais necessárias para obter o desdobramento do teorema de Wilk, mais notavelmente, não é possível construir uma expansão adequada de Taylor da probabilidade logarítmica.

Não tenho nenhuma experiência pessoal com esse problema específico, mas conheço outros casos em que os parâmetros "desaparecem" sob o nulo, o que também parece ser o caso aqui e, nesses casos, as conclusões do teorema de Wilk também se quebram. . Uma pesquisa rápida forneceu, entre outras coisas, este documento que parece relevante e onde você pode encontrar referências adicionais sobre o uso do teste da razão de verossimilhança em relação aos modelos de mistura.

NRH
fonte
Obrigado. Eu pensei que algo assim poderia ser o problema, mas não tinha certeza. Fiquei um pouco confuso sobre os pontos mais delicados do que constitui um modelo aninhado para o objetivo do Teorema de Wilks. Bom argumento sobre a identificabilidade sob o nulo.
dsimcha
4

ρestá no limite do espaço do parâmetro e (b) a parametrização não é identificável sob o valor nulo. Isso não quer dizer que a distribuição da razão de verossimilhança generalizada seja desconhecida! Se todos os 5 parâmetros em sua configuração forem desconhecidos e, mais importante, ilimitados, a distribuição da estatística LR não convergirá. Se todos os parâmetros não identificáveis ​​estiverem limitados, a estatística LR será monótona no supremo de um processo gaussiano truncado. A covariância disso não é fácil de calcular no caso geral (5 parâmetros) e, mesmo quando você o possui, a distribuição do supremo de um processo desse tipo não é facilmente aproximada. Para alguns resultados práticos sobre a mistura de dois componentes, veja aqui. Curiosamente, o artigo mostra que, em configurações bastante simples, a estatística LR é realmente menos poderosa do que algumas estatísticas mais simples. Para o artigo seminal sobre derivação da distribuição assintótica em tais problemas, veja aqui . Para todos os fins práticos, você pode ajustar a mistura usando um EM e, em seguida, inicialize a distribuição da estatística LR. Isso pode levar algum tempo, pois o EM é lento, e você precisa de muitas replicações para capturar o efeito do tamanho da amostra. Veja aqui para detalhes.

JohnRos
fonte