Aqui está um gráfico de dispersão de alguns dados multivariados (em duas dimensões):
O que podemos fazer disso quando os eixos são deixados de fora?
Introduzir coordenadas sugeridas pelos próprios dados.
A origem estará no centróide dos pontos (o ponto de suas médias). O primeiro eixo de coordenadas (azul na próxima figura) se estenderá ao longo da "espinha" dos pontos, que (por definição) é qualquer direção na qual a variação é maior. O segundo eixo de coordenadas (vermelho na figura) se estenderá perpendicularmente ao primeiro. (Em mais de duas dimensões, ele será escolhido na direção perpendicular em que a variação for a maior possível e assim por diante.)
Nós precisamos de uma balança . O desvio padrão ao longo de cada eixo será bom para estabelecer as unidades ao longo dos eixos. Lembre-se da regra 68-95-99.7: cerca de dois terços (68%) dos pontos devem estar dentro de uma unidade da origem (ao longo do eixo); cerca de 95% deve estar dentro de duas unidades. Isso facilita a observação das unidades corretas. Para referência, esta figura inclui o círculo de unidades nessas unidades:
Isso realmente não parece um círculo, parece? Isso ocorre porque esta imagem está distorcida (como evidenciado pelos diferentes espaçamentos entre os números nos dois eixos). Vamos redesenhá-lo com os eixos em suas orientações adequadas - da esquerda para a direita e de baixo para cima - e com uma proporção de unidade para que uma unidade horizontal realmente seja igual a uma unidade verticalmente:
Você mede a distância de Mahalanobis nesta imagem e não na original.
O que aconteceu aqui? Deixamos que os dados nos digam como construir um sistema de coordenadas para fazer medições no gráfico de dispersão. É só isso. Embora tenhamos feito algumas escolhas ao longo do caminho (sempre poderíamos reverter um ou ambos os eixos; e em raras situações as direções ao longo dos "espinhos" - as principais direções - não são únicas), elas não alteram as distâncias na trama final.
Comentários técnicos
(Não para a vovó, que provavelmente começou a perder o interesse assim que os números reapareceram nas parcelas, mas para abordar as questões restantes colocadas.)
Os vetores unitários ao longo dos novos eixos são os autovetores (da matriz de covariância ou de sua inversa).
Observamos que, sem distorcer a elipse para formar um círculo, divide a distância ao longo de cada vetor próprio pelo desvio padrão: a raiz quadrada da covariância. Deixando representar a função de covariância, a nova distância (Mahalanobis) entre dois pontos e é a distância de a dividida pela raiz quadrada de . As operações algébricas correspondentes, pensando agora em em termos de sua representação como matriz e e em termos de suas representações como vetores, são escritas . Isso funcionaCxyxyC(x−y,x−y)Cxy(x−y)′C−1(x−y)−−−−−−−−−−−−−−−√independentemente de qual base é usada para representar vetores e matrizes. Em particular, esta é a fórmula correta para a distância de Mahalanobis nas coordenadas originais.
As quantidades pelas quais os eixos são expandidos na última etapa são os (raízes quadradas dos) autovalores da matriz de covariância inversa. Equivalentemente, os eixos são encolhidos pelos (raízes dos) autovalores da matriz de covariância. Assim, quanto mais dispersão, mais o encolhimento necessário para converter essa elipse em um círculo.
Embora esse procedimento sempre funcione com qualquer conjunto de dados, ele parece ótimo (a nuvem clássica em forma de futebol) para dados que são aproximadamente multivariados Normal. Em outros casos, o ponto das médias pode não ser uma boa representação do centro dos dados ou os "espinhos" (tendências gerais nos dados) não serão identificados com precisão usando a variação como uma medida de dispersão.
A mudança da origem das coordenadas, rotação e expansão dos eixos formam coletivamente uma transformação afim. Além desse turno inicial, é uma mudança de base do original (usando vetores unitários apontando nas direções das coordenadas positivas) para o novo (usando uma opção de vetores próprios unitários).
Há uma forte conexão com a Análise de Componentes Principais (PCA) . Isso, por si só, ajuda bastante a explicar as perguntas "de onde vem" e "por que" - se você ainda não estava convencido pela elegância e utilidade de permitir que os dados determinem as coordenadas usadas para descrevê-las e medir suas diferenças.
Para distribuições normais multivariadas (onde podemos realizar a mesma construção usando propriedades da densidade de probabilidade em vez das propriedades análogas da nuvem de pontos), a distância de Mahalanobis (para a nova origem) aparece no lugar do " " na expressão que caracteriza a densidade de probabilidade da distribuição normal padrão. Assim, nas novas coordenadas, uma distribuição normal multivariada parece padrão Normalxexp(−12x2)quando projetada em qualquer linha através da origem. Em particular, é o padrão Normal em cada uma das novas coordenadas. Desse ponto de vista, o único sentido substancial no qual as distribuições normais multivariadas diferem entre si é em termos de quantas dimensões elas usam. (Observe que esse número de dimensões pode ser e, às vezes, é menor que o número nominal de dimensões.)
Minha avó cozinha. O seu também pode. Cozinhar é uma maneira deliciosa de ensinar estatística.
Os biscoitos de abóbora Habanero são incríveis! Pense em como a canela e o gengibre podem ser maravilhosos nas guloseimas de Natal e depois perceba como estão quentes por conta própria.
Os ingredientes são:
Imagine seus eixos de coordenadas para o seu domínio sendo os volumes de ingredientes. Açúcar. Farinha. Sal. Bicarbonato de sódio. Variações ao longo dessas direções, sendo todas as demais iguais, não têm quase o impacto na qualidade do sabor como variação na contagem de pimentas habanero. Uma mudança de 10% na farinha ou na manteiga vai torná-lo menos ótimo, mas não matador. Adicionar apenas uma pequena quantidade a mais de habanero vai derrubá-lo de um penhasco saboroso, de sobremesa viciante a competição de dor baseada em testosterona.
Mahalanobis não é tão distante nos "volumes de ingredientes" quanto está longe do "melhor sabor". Os ingredientes realmente "potentes", muito sensíveis à variação, são os que você deve controlar com mais cuidado.
Se você pensa em alguma distribuição gaussiana versus a distribuição normal padrão , qual é a diferença? Centro e escala com base na tendência central (média) e tendência de variação (desvio padrão). Uma é a transformação de coordenadas da outra. Mahalanobis é essa transformação. Ele mostra como é o mundo se sua distribuição de interesse for relançada como um padrão normal em vez de um gaussiano.
fonte
Como ponto de partida, eu veria a distância de Mahalanobis como uma deformação adequada da distância euclidiana usual entre os vetores e em . O pedaço extra de informações aqui é que e são realmente aleatórias vetores, ou seja, 2 diferentes realizações de um vetor de variáveis aleatórias, encontrando-se no fundo da nossa discussão. A pergunta que os Mahalanobis tentam abordar é a seguinte:d(x,y)=⟨x,y⟩−−−−−√ x y Rn x y X
"como posso medir a" dissimilaridade "entre e , sabendo que eles estão realizando a mesma variável aleatória multivariada?"x y
Claramente, a dissimilaridade de qualquer realização com ela mesma deve ser igual a 0; além disso, a dissimilaridade deve ser uma função simétrica das realizações e refletir a existência de um processo aleatório em segundo plano. Este último aspecto é levado em consideração pela introdução da matriz de covariância da variável aleatória multivariada.x C
Reunindo as idéias acima, chegamos naturalmente a
Se os componentes da variável aleatória multivariada não estiverem correlacionados, com, por exemplo, ("normalizamos" os para obter ), então a distância de Mahalanobis é a distância euclidiana entre e . Na presença de correlações não triviais, a matriz de correlação (estimada) "deforma" a distância euclidiana. X = ( X 1 , … , X n ) C i j = δ i j X i V a r ( X i ) = 1 D ( x , y ) x y C ( x , y )Xi X=(X1,…,Xn) Cij=δij Xi Var(Xi)=1 D(x,y) x y C(x,y)
fonte
Vamos considerar o caso das duas variáveis. Vendo esta imagem de normal bivariada (obrigado @whuber), você não pode simplesmente afirmar que AB é maior que AC. Existe uma covariância positiva; as duas variáveis estão relacionadas uma à outra.
Você pode aplicar medições euclidianas simples (linhas retas como AB e AC) somente se as variáveis forem
Essencialmente, a medida de distância de Mahalanobis faz o seguinte: transforma as variáveis em variáveis não correlacionadas com variações iguais a 1 e depois calcula a distância euclidiana simples.
fonte
Vou tentar explicá-lo da maneira mais simples possível:
A distância de Mahalanobis mede a distância de um ponto x de uma distribuição de dados. A distribuição dos dados é caracterizada por uma média e a matriz de covariância, sendo assim hipotetizada como uma gaussiana multivariada.
É usado no reconhecimento de padrões como medida de similaridade entre o padrão (distribuição de dados do exemplo de treinamento de uma classe) e o exemplo de teste. A matriz de covariância fornece a forma de como os dados são distribuídos no espaço de recursos.
A figura indica três classes diferentes e a linha vermelha indica a mesma distância de Mahalanobis para cada classe. Todos os pontos na linha vermelha têm a mesma distância da média da classe, pois é utilizada a matriz de covariância.
A principal característica é o uso da covariância como fator de normalização.
fonte
Gostaria de acrescentar um pouco de informação técnica à excelente resposta de Whuber. Essa informação pode não interessar à avó, mas talvez o neto a ache útil. A seguir, é apresentada uma explicação de baixo para cima da álgebra linear relevante.
fonte
Talvez eu esteja um pouco atrasado para responder a essa pergunta. Este artigo aqui é um bom começo para entender a distância de Mahalanobis. Eles fornecem um exemplo completo com valores numéricos. O que eu mais gosto é a representação geométrica do problema.
fonte
Apenas para acrescentar às excelentes explicações acima, a distância de Mahalanobis surge naturalmente na regressão linear (multivariada). Essa é uma consequência simples de algumas das conexões entre a distância de Mahalanobis e a distribuição gaussiana discutida nas outras respostas, mas acho que vale a pena explicar de qualquer maneira.
Por independência, a probabilidade de de fornecida é dado pela soma Portanto, que o fator não afeta o argmin.logp(y∣x;β) y=(y1,…,yN) x=(x1,…,xN)
Em resumo, os coeficientes que minimizam a probabilidade logarítmica negativa (ou seja, maximizam a probabilidade) dos dados observados também minimizam o risco empírico dos dados com função de perda dada pela distância de Mahalanobis.β0,β1
fonte
A distância de Mahalanobis é uma distância euclidiana (distância natural) que leva em consideração a covariância dos dados. Dá um peso maior ao componente barulhento e, portanto, é muito útil para verificar a similaridade entre dois conjuntos de dados.
Como você pode ver no seu exemplo aqui, quando as variáveis são correlacionadas, a distribuição é deslocada em uma direção. Você pode remover esses efeitos. Se você levar em consideração a correlação à sua distância, poderá remover o efeito de mudança.
fonte