Distância de Mahalanobis em dados não normais

8

A distância de Mahalanobis, quando usada para fins de classificação, normalmente assume uma distribuição normal multivariada, e as distâncias do centróide devem seguir uma (com graus de liberdade iguais ao número de dimensões / características). Podemos calcular a probabilidade de um novo ponto de dados pertencer ao conjunto usando sua distância de Mahalanobis. dχ2d

Eu tenho conjuntos de dados que não seguem uma distribuição normal multivariada ( ). Em teoria, cada recurso deve seguir uma distribuição de Poisson e, empiricamente, esse parece ser o caso de muitos recursos ( aproximadamente 200 ), e aqueles que não estão no ruído e podem ser removidos da análise. Como posso classificar novos pontos nesses dados?d1000200

Eu acho que existem dois componentes:

  1. Qual é a fórmula apropriada de "distância de Mahalanobis" nesses dados (ou seja, distribuição multivariada de Poisson)? Existe uma generalização da distância para outras distribuições?
  2. Se eu uso a distância normal de Mahalanobis ou outra formulação, qual deve ser a distribuição dessas distâncias? Existe uma maneira diferente de fazer o teste de hipótese?

Alternativamente...

O número de pontos de dados conhecidos n em cada classe varia muito, de n=1 (muito poucos; determinarei um mínimo empiricamente) a cerca de n=6000 . A distância de Mahalanobis escala com n , portanto, as distâncias de um modelo / classe para o próximo não podem ser comparadas diretamente. Quando os dados são distribuídos normalmente, o teste do qui-quadrado fornece uma maneira de comparar distâncias de diferentes modelos (além de fornecer valores ou probabilidades críticas). Se houver outra maneira de comparar diretamente as distâncias "semelhantes a Mahalanobis", mesmo que não forneçam probabilidades, eu poderia trabalhar com isso.

jmilloy
fonte

Respostas:

6

Você pode querer verificar Karlis e Meligkotsidou, "Regressão multivariada de poisson com estrutura de covariância". 2005. Este artigo trata das tentativas dos autores de modelar variáveis ​​multivariadas de Poisson, que eles reconhecem ser uma tarefa difícil.

O uso da distância de Mahalanobis implica que a inferência pode ser feita através da matriz de média e covariância - e isso é uma propriedade apenas da distribuição normal. Se você usa o MD em seus dados, está basicamente fingindo que eles são normais.

Placidia
fonte
Também pensei em mencionar Tiku et al., "Distância Mahalanobis sob não normalidade", 2010 (o que estou esperando) e Ekstrom, "Distância Mahalanobis além das distribuições normais", 2011 (que não me ajudou, mas poderia ajudar alguém me ajuda).
jmilloy