Tenho uma distribuição de valores obviamente bimodal, que procuro ajustar. Os dados podem ser ajustados bem com 2 funções normais (bimodal) ou com 3 funções normais. Além disso, há uma razão física plausível para ajustar os dados com 3.
Quanto mais parâmetros forem introduzidos, mais perfeito será o ajuste, como com constantes suficientes, pode-se " ajustar um elefante ".
Aqui está a distribuição, ajustada com a soma de 3 curvas normais (gaussianas):
Estes são os dados para cada ajuste. Não tenho certeza de qual teste devo aplicar aqui para determinar o ajuste. Os dados consistem em 91 pontos.
1 Função Normal:
- RSS: 1.06231
- X ^ 2: 3.1674
- F.Test: 0.3092
2 funções normais:
- RSS: 0.010939
- X ^ 2: 0,053896
- F.Test: 0.97101
3 funções normais:
- RSS: 0.00536
- X ^ 2: 0,02794
- F.Test: 0.99249
Qual é o teste estatístico correto que pode ser aplicado para determinar qual desses três ajustes é o melhor? Obviamente, o ajuste de 1 função normal é inadequado. Então, como posso discriminar entre 2 e 3?
Para adicionar, estou fazendo isso principalmente com o Excel e um pouco de Python; Ainda não tenho familiaridade com R ou outras línguas estatísticas.
R
rota). Alguns critérios de seleção de modelos são mencionados nesta resposta . Por fim, convém considerar métodos de ensemble , que abordamos brevemente nesta resposta , que também contém um link para informações focadas em Python. Você pode encontrar mais detalhes sobre a seleção do modelo e média em esta resposta .Respostas:
Aqui estão duas maneiras de abordar o problema de selecionar sua distribuição:
Para comparação de modelos, use uma medida que penalize o modelo, dependendo do número de parâmetros. Os critérios de informação fazem isso. Use um critério de informação para escolher qual modelo manter, escolha o modelo com o menor critério de informação (por exemplo, AIC). A regra geral para comparar se uma diferença nas AIC é significativa é se a diferença na AIC for maior que 2 (esse não é um teste formal de hipótese, consulte Testando a diferença na AIC de dois modelos não aninhados ).
O AIC = , onde é o número de parâmetros estimados e é a probabilidade máxima, e é a função de probabilidade e é a probabilidade dos dados observados condicionais no parâmetro de distribuição .2k−2ln(L) k L L=maxθL(θ|x) L(θ|x)=Pr(x|θ) Pr(x|θ) x θ
Se você quiser um teste formal de hipóteses, poderá proceder de pelo menos duas maneiras. O mais fácil é ajustar suas distribuições usando parte de sua amostra e testar se as distribuições de resíduos são significativamente diferentes usando um teste qui-quadrado ou Kolgomorov-Smirnov no restante dos dados. Dessa forma, você não está usando os mesmos dados para ajustar e testar seu modelo como AndrewM mencionado nos comentários.
Você também pode fazer um teste de razão de verossimilhança com um ajuste na distribuição nula. Uma versão disso é descrita em Lo Y. et al. (2013) "Testando o número de componentes na mistura normal". Biometrika, mas não tenho acesso ao artigo, portanto não posso fornecer mais detalhes sobre como exatamente fazer isso.
De qualquer forma, se o teste não for significativo, retenha a distribuição com o menor número de parâmetros, se for significativo, escolha aquele com o maior número de parâmetros.
fonte