O MLE requer dados iid? Ou apenas parâmetros independentes?

16

Estimar parâmetros usando a estimativa de máxima verossimilhança (MLE) envolve avaliar a função de verossimilhança, que mapeia a probabilidade da amostra (X) ocorrer para valores (x) no espaço de parâmetros (θ), dada uma família de distribuição (P (X = x | θ ) sobre os valores possíveis de θ (nota: estou certo nisso?) .Todos os exemplos que eu vi envolvem o cálculo de P (X = x | θ) tomando o produto de F (X) onde F é a distribuição com o local o valor para θ e X é a amostra (um vetor).

Como estamos apenas multiplicando os dados, segue-se que os dados são independentes? Por exemplo, não poderíamos usar o MLE para ajustar dados de séries temporais? Ou os parâmetros apenas precisam ser independentes?

Felix
fonte

Respostas:

14

A função de verossimilhança é definida como a probabilidade de um evento (conjunto de dados ) como uma função dos parâmetros do modeloExθ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Portanto, não há suposição de independência das observações. Na abordagem clássica, não há definição para independência de parâmetros, pois eles não são variáveis ​​aleatórias; alguns conceitos relacionados podem ser identificabilidade , ortogonalidade de parâmetros e independência dos estimadores de máxima verossimilhança (que são variáveis ​​aleatórias).

Alguns exemplos,

(1) Caso discreto . é uma amostra de observações discretas (independentes) com , em seguida,x=(x1,...,xn)P(observing xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

Particularmente, se , com conhecido, temos esseNxjBinomial(N,θ)N

L(θ;x)j=1nθxj(1θ)Nxj.

(2) Aproximação contínua . Seja uma amostra de uma variável aleatória contínua , com distribuição e densidade , com erro de medição , isto é, você observa os conjuntos . EntãoX F f ε ( x j - ε , x j + ε )x=(x1,...,xn)XFfϵ(xjϵ,xj+ϵ)

L(θ;x)j=1nP[observing (xjϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)F(xjϵ;θ)]

Quando é pequeno, isso pode ser aproximado (usando o Teorema do Valor Médio) porϵ

L(θ;x)j=1nf(xj;θ)

Para um exemplo com o caso normal, dê uma olhada nisso .

(3) Modelo dependente e Markov . Suponha que seja um conjunto de observações possivelmente dependente e seja a densidade conjunta de ;f xx=(x1,...,xn)fx

L(θ;x)f(x;θ).

Se adicionalmente a propriedade Markov for satisfeita,

L(θ;x)f(x;θ)=f(x1;θ)j=1n1f(xj+1|xj;θ).

Veja também isso .

Comunidade
fonte
3
Desde que você escreve a função de probabilidade como um produto, você assume implicitamente uma estrutura de dependência entre as observações. Portanto, para o MLE, são necessárias duas suposições (a) uma sobre a distribuição de cada resultado individual e (b) uma sobre a dependência entre os resultados.
10

(+1) Muito boa pergunta.

Além disso, o MLE significa estimativa de probabilidade máxima (não múltipla), o que significa que você apenas maximiza a probabilidade. Isso não especifica que a probabilidade deve ser produzida pela amostragem do IID.

Se a dependência da amostragem puder ser escrita no modelo estatístico, basta escrever a probabilidade de acordo e maximizá-la como de costume.

O único caso que vale a pena mencionar quando você não assume dependência é o da amostragem gaussiana multivariada (na análise de séries temporais, por exemplo). A dependência entre duas variáveis ​​gaussianas pode ser modelada pelo seu termo de covariância, que você incorpora na probabilidade.

Para dar um exemplo simplista, suponha que você tire uma amostra do tamanho de variáveis ​​Gaussianas correlacionadas com a mesma média e variância. Você escreveria a probabilidade como2

12πσ21ρ2exp(z2σ2(1ρ2)),

onde éz

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

Este não é o produto das probabilidades individuais. Ainda assim, você maximizaria isso com parâmetros para obter o MLE.(μ,σ,ρ)

gui11aume
fonte
2
Estas são boas respostas e exemplos. A única coisa que eu acrescentaria para ver isso em termos simples é que a estimativa de probabilidade requer apenas que um modelo para a geração dos dados seja especificado em termos de alguns parâmetros desconhecidos seja descrito em forma funcional.
Michael R. Chernick
(+1) Absolutamente verdade! Você tem um exemplo de modelo que não pode ser especificado nesses termos?
gui11aume
@ gu11aume Eu acho que você está se referindo à minha observação. Eu diria que não estava dando uma resposta direta à pergunta. A resposta à pergunta é sim, porque existem exemplos que podem ser mostrados onde a função de probabilidade pode ser expressa quando os dados são gerados por variáveis ​​aleatórias dependentes.
Michael R. Chernick
2
Exemplos onde isso não pode ser feito seria onde os dados são fornecidos sem nenhuma descrição do mecanismo de geração de dados ou o modelo não é apresentado de forma paramétrica, como quando você recebe dois conjuntos de dados iid e é solicitado a testar se eles são provenientes de a mesma distribuição em que você especifica apenas que as distribuições são absolutamente contínuas.
Michael R. Chernick
4

Obviamente, os modelos gaussianos de ARMA possuem uma probabilidade, pois sua função de covariância pode ser derivada explicitamente. Isso é basicamente uma extensão da resposta do gui11ame a mais de 2 observações. A busca mínima no Google produz documentos como este, onde a probabilidade é dada na forma geral.

yij=xijβ+ui+ϵij,
jijiϵijui
lnLilnjf(yij|β,ui)dF(ui)
yij
StasK
fonte
2
Stask e @ gui11aume, essas três respostas são boas, mas acho que elas perdem um ponto: e a consistência do MLE para dados dependentes?
Stéphane Laurent