Ajuste Gaussiano robusto e multivariado em R

11

Preciso ajustar uma distribuição gaussiana generalizada a uma nuvem de pontos de 7 dim contendo um número bastante significativo de outliers com alta alavancagem. Você conhece algum bom pacote R para este trabalho?

kjetil b halvorsen
fonte
3
Você encontrará links para pelo menos quatro pacotes R para identificar discrepâncias multivariadas nas respostas a uma pergunta semelhante em stats.stackexchange.com/questions/213/… . Isso pode ser um bom começo.
whuber
Talvez a pergunta esteja me iludindo, mas, quanto ao ajuste de uma distribuição gaussiana multivariada, por que não usar apenas a média empírica e o SD como o MLE? Você pode se concentrar nas estatísticas de diagnóstico se houver altos pontos de influência / alavancagem.
AdamO

Respostas:

1

Também há mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

Porém, é preciso ter cuidado: a modelagem de mistura no espaço de alta dimensão pode consumir bastante CPU e memória, se a sua nuvem de pontos for grande. Cerca de quatro anos atrás, eu estava fazendo um lote de dados de pontos de dimensão 11 a 50-200K, e ele tendia a rodar em 4-11 GB de RAM e levava até uma semana para calcular cada caso (e eu tinha 400). Isso certamente é possível, mas pode ser uma dor de cabeça se você estiver usando um cluster de computação compartilhado ou tiver recursos limitados disponíveis.

Kieran O'Neill
fonte
1

Isso soa como um modelo gaussiano clássico de mistura multivariada. Eu acho que o pacote BayesM pode funcionar.

Aqui estão alguns pacotes de misturas gaussianas multivariadas

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • mixtools: www.jstatsoft.org/v32/i06/paper
EngrStudent
fonte