Eu tenho 17 variáveis numéricas e 5 binárias (0-1), com 73 amostras no meu conjunto de dados. Eu preciso executar uma análise de cluster. Eu sei que a distância de Gower é uma boa métrica para conjuntos de dados com variáveis mistas. No entanto, eu não conseguia entender como a distância de Gower calcula a diferença entre variáveis binárias . Parece-me que não é diferente da distância euclidiana.
clustering
distance
mixed-type-data
Emrah Bilgiç
fonte
fonte
Gower
? stats.stackexchange.com/a/15313/3277Respostas:
E os atributos binários que possuem os valores "m" e "f" para "masculino" e "feminino"?
Você percebe que, para uma variável dicotômica, tudo o que você pode obter é "igual" ou "diferente"? A principal diferença entre as distâncias não é se o valor for 1 ou 0; mas como várias variáveis são combinadas.
fonte
A distância de Gower usa Manhattan para calcular a distância entre pontos de dados contínuos e Dados para calcular a distância entre pontos de dados categóricos
fonte