Qual é a distância de Mahalanobis e como é usada no reconhecimento de padrões?

11

Alguém pode me explicar o conceito de distância de Mahalanobis? Por exemplo, qual é a distância de Mahalanobis entre dois pontos x e y, e especialmente, como é interpretada para reconhecimento de padrões?

ayariga
fonte
3
O que você entende sobre isso agora, qualquer coisa? Já experimentou a Wikipedia?
gung - Restabelece Monica
2
Muito relacionado: stats.stackexchange.com/questions/62092/… .
whuber
Você pode usar este link. ele descreve bem as pessoas.revoledu.com/kardi/tutorial/Similarity/…
Zohreh

Respostas:

13

A distância de Mahalanobis fornece uma maneira de medir quão semelhante um conjunto de condições é semelhante a um conjunto conhecido de condições. Ele explica a covariância entre variáveis.

É calculado como: onde:

D2=(xm)TC1(xm)
D2=Mahalanobis distancex=Vector of datam=Vector of mean values of independent variablesC1=Inverse Covariance matrix of independent variablesT=Indicates vector should be transposed

Esta página fornece uma explicação detalhada (com exemplos da análise de paisagem).

nadya
fonte
1
obrigado, a fonte me deu uma boa explicação para começar
ayariga 26/10/12
5

A distância de Mahalanobis é usada para encontrar valores discrepantes em um conjunto de dados. Não sei em que campo você está, mas na psicologia é usado para identificar casos que não se "encaixam" no que é esperado, dadas as normas para o conjunto de dados. Por exemplo, se sua amostra for composta por indivíduos com baixos níveis de depressão e você tiver um ou dois indivíduos com níveis muito altos de depressão, eles terão distâncias de Mahalanobis maiores que o valor crítico esperado. Você provavelmente desejaria remover esses casos se forem muito extremos E se achar que eles não se encaixam no seu conjunto de dados. (Usando o exemplo fornecido, sua amostra é composta por indivíduos com baixos níveis de depressão, portanto, um ou dois indivíduos com altos níveis de depressão não se encaixam nos demais). Identificar discrepantes é muito importante porque muitas análises estatísticas têm uma "suposição de normalidade", isto é, uma expectativa de que seus dados sejam normalmente distribuídos. Os discrepantes também podem contribuir para dados distorcidos e, por esse motivo, eles também devem ser removidos. (A menos que você transforme a variável inteira e isso corrija a inclinação). Muitos programas estatísticos, como o SPSS, permitem calcular as distâncias M e a probabilidade associada a cada pontuação para identificar discrepâncias. Posso fornecer instruções sobre o SPSS, mas não sei se você está usando o SPSS. (A menos que você transforme a variável inteira e isso corrija a inclinação). Muitos programas estatísticos, como o SPSS, permitem calcular as distâncias M e a probabilidade associada a cada pontuação para identificar discrepâncias. Posso fornecer instruções sobre o SPSS, mas não sei se você está usando o SPSS. (A menos que você transforme a variável inteira e isso corrija a inclinação). Muitos programas estatísticos, como o SPSS, permitem calcular as distâncias M e a probabilidade associada a cada pontuação para identificar discrepâncias. Posso fornecer instruções sobre o SPSS, mas não sei se você está usando o SPSS.

Madeline
fonte