Estou tentando procurar um bom argumento sobre por que alguém usaria a distância de Manhattan sobre a distância euclidiana no Machine Learning.
A coisa mais próxima que encontrei de um bom argumento até agora é nesta palestra do MIT .
Às 36:15, você pode ver nos slides a seguinte declaração:
"Normalmente, use a métrica euclidiana; Manhattan pode ser apropriada se diferentes dimensões não forem comparáveis " .
Logo após o professor dizer que, como o número de pernas de um réptil varia de 0 a 4 (enquanto os outros recursos são binários, variam apenas de 0 a 1), o recurso "número de pernas" acabará tendo um valor muito maior peso se for usada a distância euclidiana. Com certeza, isso é realmente certo. Mas também haveria esse problema se usássemos a distância de Manhattan (apenas que o problema seria um pouco atenuado, porque não calculamos a diferença como fazemos na distância euclidiana).
Uma maneira melhor de resolver o problema acima seria normalizar o recurso "número de pernas" para que seu valor sempre esteja entre 0 e 1.
Portanto, como existe uma maneira melhor de resolver o problema, parecia que o argumento de usar a distância de Manhattan nesse caso carecia de um ponto mais forte, pelo menos na minha opinião.
Alguém realmente sabe por que e quando alguém usaria a distância de Manhattan sobre os euclidianos? Alguém pode me dar um exemplo em que o uso da distância de Manhattan produziria melhores resultados?
Eu posso sugerir algumas idéias, da wikipedia .
fonte
Encontrei algo que pode ser intuição sobre esse problema no Hands-On Machine Learning com o Scikit-Learn e o TensorFlow
fonte
O uso da distância de Manhattan depende muito do tipo de sistema de coordenadas que seu conjunto de dados está usando. Enquanto a distância euclidiana fornece a distância mais curta ou mínima entre dois pontos, Manhattan tem implementações específicas.
Por exemplo, se usarmos um conjunto de dados do xadrez, o uso da distância de Manhattan é mais apropriado que a distância euclidiana. Outro uso seria quando estiver interessado em saber a distância entre casas que estão a poucos quarteirões de distância.
Além disso, convém considerar a distância de Manhattan se as variáveis de entrada não forem de tipo semelhante (como idade, sexo, altura etc.). Devido à maldição da dimensionalidade, sabemos que a distância euclidiana se torna uma má escolha à medida que o número de dimensões aumenta.
Em resumo: a distância de Manhattan geralmente funciona apenas se os pontos são organizados na forma de uma grade e o problema em que estamos trabalhando dá mais prioridade à distância entre os pontos apenas junto às grades, mas não à distância geométrica.
fonte