Como selecionar o melhor ajuste sem excesso de dados? Modelando uma distribuição bimodal com N funções normais, etc

11

Tenho uma distribuição de valores obviamente bimodal, que procuro ajustar. Os dados podem ser ajustados bem com 2 funções normais (bimodal) ou com 3 funções normais. Além disso, há uma razão física plausível para ajustar os dados com 3.

Quanto mais parâmetros forem introduzidos, mais perfeito será o ajuste, como com constantes suficientes, pode-se " ajustar um elefante ".

Aqui está a distribuição, ajustada com a soma de 3 curvas normais (gaussianas):

Distribuição com

Estes são os dados para cada ajuste. Não tenho certeza de qual teste devo aplicar aqui para determinar o ajuste. Os dados consistem em 91 pontos.

1 Função Normal:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • F.Test: 0.3092

2 funções normais:

  • RSS: 0.010939
  • X ^ 2: 0,053896
  • F.Test: 0.97101

3 funções normais:

  • RSS: 0.00536
  • X ^ 2: 0,02794
  • F.Test: 0.99249

Qual é o teste estatístico correto que pode ser aplicado para determinar qual desses três ajustes é o melhor? Obviamente, o ajuste de 1 função normal é inadequado. Então, como posso discriminar entre 2 e 3?

Para adicionar, estou fazendo isso principalmente com o Excel e um pouco de Python; Ainda não tenho familiaridade com R ou outras línguas estatísticas.

MurphysLab
fonte
Foi sugerido que eu use o qui quadrado reduzido X ^ 2 / (Nn-1) onde N é o número de pontos de dados en é o número de parâmetros ajustados. No entanto, o pequeno pentalty (+/- 3) em relação ao número de pontos de dados (91) não parece intuitivamente uma penalidade particularmente acentuada por adicionar outro gaussiano.
MurphysLab
Você pode querer verificar esta resposta (caso decida seguir a Rrota). Alguns critérios de seleção de modelos são mencionados nesta resposta . Por fim, convém considerar métodos de ensemble , que abordamos brevemente nesta resposta , que também contém um link para informações focadas em Python. Você pode encontrar mais detalhes sobre a seleção do modelo e média em esta resposta .
Aleksandr Blekh 27/03

Respostas:

5

Aqui estão duas maneiras de abordar o problema de selecionar sua distribuição:

  1. Para comparação de modelos, use uma medida que penalize o modelo, dependendo do número de parâmetros. Os critérios de informação fazem isso. Use um critério de informação para escolher qual modelo manter, escolha o modelo com o menor critério de informação (por exemplo, AIC). A regra geral para comparar se uma diferença nas AIC é significativa é se a diferença na AIC for maior que 2 (esse não é um teste formal de hipótese, consulte Testando a diferença na AIC de dois modelos não aninhados ).

    O AIC = , onde é o número de parâmetros estimados e é a probabilidade máxima, e é a função de probabilidade e é a probabilidade dos dados observados condicionais no parâmetro de distribuição .2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. Se você quiser um teste formal de hipóteses, poderá proceder de pelo menos duas maneiras. O mais fácil é ajustar suas distribuições usando parte de sua amostra e testar se as distribuições de resíduos são significativamente diferentes usando um teste qui-quadrado ou Kolgomorov-Smirnov no restante dos dados. Dessa forma, você não está usando os mesmos dados para ajustar e testar seu modelo como AndrewM mencionado nos comentários.

    Você também pode fazer um teste de razão de verossimilhança com um ajuste na distribuição nula. Uma versão disso é descrita em Lo Y. et al. (2013) "Testando o número de componentes na mistura normal". Biometrika, mas não tenho acesso ao artigo, portanto não posso fornecer mais detalhes sobre como exatamente fazer isso.

    De qualquer forma, se o teste não for significativo, retenha a distribuição com o menor número de parâmetros, se for significativo, escolha aquele com o maior número de parâmetros.

Chris Novak
fonte
@Momo graças, mudou isso e acrescentou a equação para AIC
Chris Novak
Não tenho 100% de certeza, mas o AIC padrão pode não funcionar conforme o esperado nos modelos de mistura, pois diferentes configurações das misturas podem produzir o mesmo modelo.
Cagdas Ozgenc
O que eu quis dizer foi que você pode trocar os 2 gaussianos (definindo a média / variância de 1º para o 2º e 2º para o 1º e também para as misturas) e ainda obter o mesmo modelo. Tanto quanto sei, a AIC não funciona como o esperado em tais situações.
Cagdas Ozgenc
1
@CagdasOzgenc Entendo o seu ponto, mas parece que o AIC e o BIC padrão mostraram-se adequados para a seleção de modelos em modelos de mistura gaussiana; veja, por exemplo, o artigo projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak
1
@ChrisNovak sim, um teste de razão de verossimilhança (com ajustes na distribuição de amostragem nula do típico com DOF igual à diferença na dimensão do espaço do parâmetro) é uma boa idéia. Não sei quão complicados são os ajustes, mas misturas de são típicas nesses casos. Os ajustes são necessários porque você está testando um ponto no limite do espaço do parâmetro. χ2χ2
Andrew