Quais são os estimadores de probabilidade máxima para os parâmetros da distribuição t de Student? Eles existem em forma fechada? Uma rápida pesquisa no Google não me deu nenhum resultado.
Hoje estou interessado no caso univariado, mas provavelmente terei que estender o modelo para várias dimensões.
EDIT: Na verdade, estou mais interessado nos parâmetros de localização e escala. Por enquanto, posso assumir que o parâmetro de graus de liberdade é fixo e, possivelmente, usar algum esquema numérico para encontrar o valor ideal posteriormente.
Respostas:
O formulário fechado não existe para T, mas uma abordagem muito intuitiva e estável é através do algoritmo EM. Agora, como o aluno é uma mistura em escala de normais, você pode escrever seu modelo como
onde e . Isso significa que, condicionalmente, em a são apenas a média ponderada e o desvio padrão. Este é o passo "M"w i ∼ G a ( νeEu| σ, wEu∼ N( 0 , σ2W- 1Eu) wiWEu∼ G a ( ν2, ν2) WEu
σ 2=Σiwi(yi - μ )2
Agora, a etapa "E" substitui por sua expectativa, considerando todos os dados. Isto é dado como:WEu
para simplesmente iterar as duas etapas acima, substituindo o "lado direito" de cada equação pelas estimativas de parâmetros atuais.
Isso mostra muito facilmente as propriedades de robustez da distribuição t, pois as observações com grandes resíduos recebem menos peso no cálculo da localização e influência limitada no cálculo de . Por "influência limitada", quero dizer que a contribuição para a estimativa de da i-ésima observação não pode exceder um determinado limite (este é no algoritmo EM). Além disso, é um parâmetro de "robustez", pois aumentar (diminuir) resultará em pesos mais (menos) uniformes e, portanto, mais (menos) sensibilidade a valores discrepantes.σ 2 σ 2 ( ν + 1 ) σ 2 o l d ν νμ σ2 σ2 ( ν+ 1 ) σ2o l d ν ν
Uma coisa a ser observada é que a função de probabilidade de log pode ter mais de um ponto estacionário; portanto, o algoritmo EM pode convergir para um modo local em vez de global. É provável que os modos locais sejam encontrados quando o parâmetro location for iniciado muito perto de um outlier. Portanto, começar na mediana é uma boa maneira de evitar isso.
fonte
O documento a seguir aborda exatamente o problema que você postou.
Liu C. e Rubin DB 1995. "Estimativa ML da distribuição t usando EM e suas extensões, ECM e ECME". Statistica Sinica 5: 19–39.
Ele fornece uma estimativa geral de parâmetros de distribuição t multivariada, com ou sem o conhecimento do grau de liberdade. O procedimento pode ser encontrado na Seção 4 e é muito semelhante ao probabilityislogic's para uma dimensão.
fonte
Duvido que exista na forma fechada: se você escrever qualquer um dos fatores de probabilidade como e, considerando isso, você obterá uma equação não linear em . Mesmo que você consiga obter uma solução, dependendo do número de fatores (termos) , a equação MLE dependerá desse maneira não trivial. Tudo isso simplifica drasticamente, é claro, quandoνnnν→∞
fonte
Descobri recentemente um estimador em formato fechado para a escala da distribuição t de Student. Que eu saiba, essa é uma nova contribuição, mas gostaria de receber comentários sugerindo resultados relacionados. O artigo descreve o método no contexto de uma família de distribuições "exponenciais acopladas". O t de Student é referido como Gaussiano Acoplado, onde o termo de acoplamento é o recíproco do grau de liberdade. A estatística de forma fechada é a média geométrica das amostras. Assumindo um valor do acoplamento ou grau de liberdade, uma estimativa da escala é determinada multiplicando a média geométrica das amostras por uma função que envolve o acoplamento e um número harmônico.
https://arxiv.org/abs/1804.03989 Uso da média geométrica como estatística para a escala das distribuições gaussianas acopladas, Kenric P. Nelson, Mark A. Kon, Sabir R. Umarov
fonte