Você não pode comparar os dois modelos, pois eles não modelam a mesma variável (como você se reconhece corretamente). No entanto, o AIC deve funcionar ao comparar modelos aninhados e não aninhados.
Apenas um lembrete antes de continuarmos: uma probabilidade gaussiana de log é dada por
registro( L ( θ ) ) = - | D |2registro( 2 π) - 12registro( | K| )- 12( x - μ )TK- 1( X - μ ) ,
| D | μ xK sendo a estrutura de covariância do seu modelo,o número de pontos em seus conjuntos de dados, a resposta média ex sua variável dependente.| D |μx
Mais especificamente, o AIC é calculado para ser igual a , onde é o número de efeitos fixos no seu modelo e sua função de probabilidade [1]. Praticamente compara o trade-off entre variação ( ) e desvio ( ) em suas suposições de modelagem. Como tal, no seu caso, ele compararia duas estruturas diferentes de probabilidade de log no que diz respeito ao termo de viés. Isso ocorre porque, quando você calcula sua probabilidade de log praticamente, você olha para dois termos: um termo adequado, denotado por e um termo de penalização da complexidade, denotado pork L 2 k 2 log ( L ) - 12 k - 2 log( L )keu2 k2 log( L )-1- 12( x - μ )TK- 1( x - μ )- 12registro( | K| ). Portanto, você vê que seu termo de ajuste é completamente diferente entre os dois modelos; no primeiro caso, você compara os resíduos dos dados brutos e, no outro caso, os resíduos dos dados registrados.
Além da Wikipedia, a AIC também é definida para igualar: [3]; esse formulário torna ainda mais óbvio por que modelos diferentes com diferentes variáveis dependentes não são comparáveis. O RSS é o caso de dois é apenas incomparável entre os dois.| D | registro( R SS| D |) +2k
O artigo original de Akaike [4] é realmente muito difícil de entender (eu acho). Ele é baseado na divergência de KL (diferença entre duas distribuições, grosso modo) e trabalha para provar como você pode aproximar a verdadeira distribuição desconhecida de seus dados e compará-la com a distribuição de dados que seu modelo assume. É por isso que "menor pontuação na AIC é melhor" ; você está mais próximo da distribuição verdadeira aproximada de seus dados.
Então, para reunir tudo, as coisas óbvias a serem lembradas ao usar o AIC são três [2,5]:
Você não pode usá-lo para comparar modelos de diferentes conjuntos de dados.
Você deve usar as mesmas variáveis de resposta para todos os modelos candidatos.
Você deveria ter , porque, caso contrário, você não obtém boa consistência assintótica.| D | > > K
Desculpe dar as más notícias para você, mas usar o AIC para mostrar que você está escolhendo uma variável dependente em detrimento de outra não é uma coisa estatisticamente correta. Verifique a distribuição de seus resíduos nos dois modelos, se o caso de dados registrado normalmente distribuir resíduos e o caso de dados brutos não, você tem toda a justificativa de que precisa. Você também pode verificar se seus dados brutos correspondem a um lognormal, isso também pode ser uma justificativa suficiente.
Para suposições matemáticas estritas, o jogo é a divergência KL e a teoria da informação ...
Ah, e algumas referências:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Critério de Informação de Akaike, Shuhua Hu, (Apresentação p.17-18)
- Análise Estatística Multivariada Aplicada, Johnson & Wichern, 6ª Ed. (p. 386-387)
- Um novo olhar sobre a identificação do modelo estatístico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Tutorial de Seleção de Modelo # 1: Critério de Informação de Akaike, D. Schmidt e E. Makalic, (Apresentação p.39)
uu0
uu0
AIC (uu0)+2*sum (log (usili))
AIC (uu1)
fonte
AIC()
Este trecho de Akaike 1978 fornece uma citação no suporte da solução por @probabilityislogic.
Akaike, H. 1978. Sobre a probabilidade de um modelo de série temporal. Jornal da Sociedade Estatística Real. Série D (Estatístico) 27: 217-235.
fonte