Encontrando número de gaussianos em uma mistura finita com o teorema de Wilks?

11

Suponha que eu tenha um conjunto de observações univariadas independentes e identicamente distribuídas duas hipóteses sobre como foi gerado: $x$ $x$

: é extraído de uma única distribuição gaussiana com média e variância desconhecidas. $H_0$ $x$

: é extraído de uma mistura de dois gaussianos com média desconhecida, variância e coeficiente de mistura. $H_A$ $x$

Se bem entendi, esses são modelos aninhados, pois o modelo que representa pode ser descrito em termos de se você restringir os parâmetros dos dois gaussianos a serem idênticos ou restringir o coeficiente de mistura a zero para um dos dois gaussianos . $H_0$ $H_A$

Portanto, parece que você deve poder usar o algoritmo EM para estimar os parâmetros de e, em seguida, usar o Teorema de Wilks para determinar se a probabilidade dos dados em é significativamente maior do que em . Há um pequeno salto de fé na suposição de que o algoritmo EM convergirá para a probabilidade máxima aqui, mas é o que estou disposto a fazer. $H_A$ $H_A$ $H_0$

Eu tentei isso em uma simulação de monte carlo, assumindo que tenha 3 graus de liberdade a mais do que (a média e a variação para o segundo parâmetro gaussiano e de mistura). Quando simulei dados de , obtive uma distribuição de valor P substancialmente não uniforme e enriquecida para pequenos valores P. (Se o EM não estivesse convergindo para a verdadeira probabilidade máxima, seria exatamente o oposto.) O que há de errado com minha aplicação do teorema de Wilks que está criando esse viés? $H_A$ $H_0$ $H_0$

hypothesis-testing normal-distribution expectation-maximization dsimcha
fonte

8

Com uma especificação cuidadosa de como a hipótese nula está contida no modelo de mistura de dois componentes, é possível ver qual poderia ser o problema. Se os cinco parâmetros no modelo de mistura são $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$

H_{0 0} : (μ_{1} = μ_{2} e σ_{1} = σ_{2}) ou ρ \in {0 0, 1} .

$H_0: (\mu_1 = \mu_2 \text{ and } \sigma_1 = \sigma_2) \text{ or } \rho \in \{0, 1\}.$

ρ

$\rho$

ρ

$\rho$

A hipótese nula é um subconjunto complicado do espaço completo dos parâmetros e, sob o nulo, os parâmetros nem são identificáveis. As suposições usuais necessárias para obter o desdobramento do teorema de Wilk, mais notavelmente, não é possível construir uma expansão adequada de Taylor da probabilidade logarítmica.

Não tenho nenhuma experiência pessoal com esse problema específico, mas conheço outros casos em que os parâmetros "desaparecem" sob o nulo, o que também parece ser o caso aqui e, nesses casos, as conclusões do teorema de Wilk também se quebram. . Uma pesquisa rápida forneceu, entre outras coisas, este documento que parece relevante e onde você pode encontrar referências adicionais sobre o uso do teste da razão de verossimilhança em relação aos modelos de mistura.

NRH
fonte

Obrigado. Eu pensei que algo assim poderia ser o problema, mas não tinha certeza. Fiquei um pouco confuso sobre os pontos mais delicados do que constitui um modelo aninhado para o objetivo do Teorema de Wilks. Bom argumento sobre a identificabilidade sob o nulo.

dsimcha

4

$\rho$ está no limite do espaço do parâmetro e (b) a parametrização não é identificável sob o valor nulo. Isso não quer dizer que a distribuição da razão de verossimilhança generalizada seja desconhecida! Se todos os 5 parâmetros em sua configuração forem desconhecidos e, mais importante, ilimitados, a distribuição da estatística LR não convergirá. Se todos os parâmetros não identificáveis estiverem limitados, a estatística LR será monótona no supremo de um processo gaussiano truncado. A covariância disso não é fácil de calcular no caso geral (5 parâmetros) e, mesmo quando você o possui, a distribuição do supremo de um processo desse tipo não é facilmente aproximada. Para alguns resultados práticos sobre a mistura de dois componentes, veja aqui. Curiosamente, o artigo mostra que, em configurações bastante simples, a estatística LR é realmente menos poderosa do que algumas estatísticas mais simples. Para o artigo seminal sobre derivação da distribuição assintótica em tais problemas, veja aqui . Para todos os fins práticos, você pode ajustar a mistura usando um EM e, em seguida, inicialize a distribuição da estatística LR. Isso pode levar algum tempo, pois o EM é lento, e você precisa de muitas replicações para capturar o efeito do tamanho da amostra. Veja aqui para detalhes.

JohnRos
fonte

Encontrando número de gaussianos em uma mistura finita com o teorema de Wilks?

Respostas: