A função de verossimilhança é definida como a probabilidade de um evento (conjunto de dados ) como uma função dos parâmetros do modeloExθ
L(θ;x)∝P(Event E;θ)=P(observing x;θ).
Portanto, não há suposição de independência das observações. Na abordagem clássica, não há definição para independência de parâmetros, pois eles não são variáveis aleatórias; alguns conceitos relacionados podem ser identificabilidade , ortogonalidade de parâmetros e independência dos estimadores de máxima verossimilhança (que são variáveis aleatórias).
Alguns exemplos,
(1) Caso discreto . é uma amostra de observações discretas (independentes) com , em seguida,x=(x1,...,xn)P(observing xj;θ)>0
L(θ;x)∝∏j=1nP(observing xj;θ).
Particularmente, se , com conhecido, temos esseNxj∼Binomial(N,θ)N
L(θ;x)∝∏j=1nθxj(1−θ)N−xj.
(2) Aproximação contínua . Seja uma amostra de uma variável aleatória contínua , com distribuição e densidade , com erro de medição , isto é, você observa os conjuntos . EntãoX F f ε ( x j - ε , x j + ε )x=(x1,...,xn)XFfϵ(xj−ϵ,xj+ϵ)
L(θ;x)∝∏j=1nP[observing (xj−ϵ,xj+ϵ);θ]=∏j=1n[F(xj+ϵ;θ)−F(xj−ϵ;θ)]
Quando é pequeno, isso pode ser aproximado (usando o Teorema do Valor Médio) porϵ
L(θ;x)∝∏j=1nf(xj;θ)
Para um exemplo com o caso normal, dê uma olhada nisso .
(3) Modelo dependente e Markov . Suponha que seja um conjunto de observações possivelmente dependente e seja a densidade conjunta de ;f xx=(x1,...,xn)fx
L(θ;x)∝f(x;θ).
Se adicionalmente a propriedade Markov for satisfeita,
L(θ;x)∝f(x;θ)=f(x1;θ)∏j=1n−1f(xj+1|xj;θ).
Veja também isso .
(+1) Muito boa pergunta.
Além disso, o MLE significa estimativa de probabilidade máxima (não múltipla), o que significa que você apenas maximiza a probabilidade. Isso não especifica que a probabilidade deve ser produzida pela amostragem do IID.
Se a dependência da amostragem puder ser escrita no modelo estatístico, basta escrever a probabilidade de acordo e maximizá-la como de costume.
O único caso que vale a pena mencionar quando você não assume dependência é o da amostragem gaussiana multivariada (na análise de séries temporais, por exemplo). A dependência entre duas variáveis gaussianas pode ser modelada pelo seu termo de covariância, que você incorpora na probabilidade.
Para dar um exemplo simplista, suponha que você tire uma amostra do tamanho de variáveis Gaussianas correlacionadas com a mesma média e variância. Você escreveria a probabilidade como2
onde éz
Este não é o produto das probabilidades individuais. Ainda assim, você maximizaria isso com parâmetros para obter o MLE.(μ,σ,ρ)
fonte
Obviamente, os modelos gaussianos de ARMA possuem uma probabilidade, pois sua função de covariância pode ser derivada explicitamente. Isso é basicamente uma extensão da resposta do gui11ame a mais de 2 observações. A busca mínima no Google produz documentos como este, onde a probabilidade é dada na forma geral.
fonte