Uma probabilidade de -2 Log pode ser calculada com apenas um modelo?

9

Estou usando a glmfitfunção no MATLAB. A função retorna apenas o desvio e não a probabilidade do log. Entendo que o desvio é basicamente o dobro da diferença entre as probabilidades de log dos modelos, mas o que não entendo é que estou apenas usando glmfitpara criar um modelo, mas de alguma forma estou obtendo um desvio.

  • O cálculo da probabilidade -2 Log requer 2 modelos?
  • Como o desvio pode ser analisado quando existe apenas um modelo?

Outra pergunta que tenho é dizer que eu tinha dois modelos e que os comparava usando o teste de probabilidade de log. A hipótese nula seria o primeiro modelo e a hipótese alternativa seria o segundo modelo. Depois de obter a estatística do teste de verossimilhança do log, eu a compararia com o chi quadrado cdf para determinar o valor de p? Estou certo de que, se for menor que o nível alfa, rejeitaria o nulo e, se for maior, falharia em rejeitar o nulo?

shiu6rewgu
fonte
2
Para sua primeira pergunta. Sim, existem 2 modelos. O outro é um modelo perfeito com probabilidade logarítmica = 0. Dessa maneira, seu desvio é igual à probabilidade logarítmica do seu modelo.
FMZ 16/03/12
1
seria o modelo perfeito - meu modelo ou meu modelo - modelo perfeito? E dividir por -2 realmente me daria a probabilidade de log do modelo e eu poderia usar isso para fazer o teste de probabilidade de log?
shiu6rewgu

Respostas:

13

O termo estatístico desvio é jogado um pouco demais. Na maioria das vezes, os programas retornam o desvio

D(y)=-2registro{p(y|θ^)},
Onde θ^ é o (s) parâmetro (s) estimado (s) do ajuste do modelo e y é alguma ocorrência potencialmente observada / observável da quantidade aleatória em questão.

O desvio mais comum a que você se refere trataria o desvio acima como uma função de duas variáveis, os dados e os parâmetros ajustados:

D(y,θ^)=-2registro{p(y|θ^)}
e então se você tivesse um y valor, mas dois valores de parâmetros ajustados concorrentes, θ^1 e θ^2, então você obteria o desvio que você mencionou
-2(registro{p(y|θ^1)}-registro{p(y|θ^2)}).
Você pode ler sobre a função Matlab que você mencionou glmfit(), vinculada aqui . Uma discussão mais frutífera, embora mais curta, sobre o desvio está relacionada aqui .

A estatística de desvio implicitamente assume dois modelos: o primeiro é o seu modelo ajustado, retornado por glmfit(), chame esse vetor de parâmetroθ^1. O segundo é o "modelo completo" (também chamado de "modelo saturado"), que é um modelo no qual existe uma variável livre para cada ponto de dados, chame esse vetor de parâmetroθ^s. Ter tantas variáveis ​​livres é obviamente uma coisa estúpida, mas permite que você se ajuste exatamente a esses dados.

Portanto, a estatística de desvio é calculada como a diferença entre a probabilidade logarítmica calculada no modelo ajustado e no modelo saturado. DeixeiY={y1,y2,,yN}seja a coleção dos N pontos de dados. Então:

DEV(θ^1,Y)=-2[registrop(Y|θ^1)-registrop(Y|θ^s)].
Os termos acima serão expandidos em somas nos pontos de dados individuais yEupela suposição de independência. Se você deseja usar esse cálculo para calcular a probabilidade de log do modelo, primeiro será necessário calcular a probabilidade de log do modelo saturado. Aqui está um link que explica algumas idéias para calcular isso ... mas o problema é que, em qualquer caso, você precisará anotar uma função que calcule a probabilidade de log para seu tipo de dados e, nesse caso, provavelmente é apenas melhor criar sua própria função que calcula a probabilidade de log, em vez de retroceder em um cálculo de desvio.

Veja o Capítulo 6 da Análise de Dados Bayesiana para uma boa discussão sobre desvio.

Quanto ao seu segundo ponto sobre a estatística do teste de probabilidade, sim, parece que você basicamente sabe a coisa certa a fazer. Mas, em muitos casos, você considerará a hipótese nula como algo que o conhecimento externo especializado permite adivinhar com antecedência (como um coeficiente igual a zero). Não é necessariamente algo que resulta do ajuste do modelo.

ely
fonte
Obrigado EMS! Você realmente me ajudou a entender o que é muito diferente! Ainda tenho algumas perguntas, mas não sei como perguntar. Depois de descobrir como redigir, definitivamente responderei aqui.
shiu6rewgu
Ok, primeira pergunta, como eu extrairia a probabilidade de log para o modelo que criei do desvio, considerando que o matlab só me dá o desvio? Além disso, (eu sei que isso me faz parecer bastante estúpido, mas) para p (y | θ2) teria que ser a probabilidade de obter um determinado valor y do conjunto de dados resultado ou as variáveis independentes dado o parâmetro equipada
shiu6rewgu
Parece que eu estava enganado sobre o método do Matlab. Ele calcula o desvio observando dois modelos e editei a resposta acima para refletir isso.
22612 ely
+1, esta é uma resposta muito boa. Espero ver mais deles no futuro.
gung - Restabelece Monica
1
@SibbsGambling Neste link, há um exemplo com dados da árvore coolibah mostrando um modelo "completo" ou "saturado" em que a probabilidade de log não é zero. Acredito que há certas situações em que o modelo saturado deve ter uma probabilidade de uma por definição, mas não em todas as situações.
Ely