Eu tenho um conjunto de dados de variáveis discretas (ordinais, merísticas e nominais) que descrevem caracteres morfológicos das asas em várias espécies de insetos intimamente relacionadas. O que pretendo fazer é realizar algum tipo de análise que me dê uma representação visual da semelhança das diferentes espécies com base nas características morfológicas. A primeira coisa que me veio à cabeça foi o PCA (esse é o tipo de visualização que estou procurando criar), mas depois de analisá-lo (particularmente outras questões como: A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura contínua de e variáveis categóricas?), parece que o PCA pode ser inadequado para dados discretos (o PCA é usado nesses tipos de estudos na literatura, mas sempre com dados contínuos). Ignorando os antecedentes estatísticos de por que esses dados são inadequados, o PCA me fornece resultados relativamente perfeitos com relação à minha pergunta biológica (grupos de interesse híbridos ficam bem no meio de seus grupos paternos).
Também tentei a análise de correspondência múltipla para apaziguar as estatísticas (pelo menos no que diz respeito a minha compreensão), mas não consigo obter um gráfico análogo ao que obteria com o PCA, onde minhas observações (indivíduos biológicos) são separados digamos por cor para mostrar os diferentes agrupamentos (espécies diferentes, biologicamente falando). Parece que esta análise visa descrever como as variáveis (aqui, minhas características morfológicas) estão relacionadas entre si, e não as observações individuais. E quando planto observações coloridas por grupo, recebo apenas um único valor (talvez uma média) descrevendo todo o conjunto de indivíduos. Eu fiz a análise em R, então talvez eu também não seja tão habilidoso quanto R para fazer minha idéia do enredo funcionar.
Estou correto ao tentar esse tipo de análise com meus dados ou estou fora de controle? Se você não sabia, minha experiência em estatística é limitada, de modo que as equações que acontecem sob essas análises estão por toda parte. Estou tentando conduzir essa análise de forma completamente descritiva (não preciso fazer mais processamento de números a jusante) e li que, se for esse o caso, o PCA será suficiente, mas quero ter certeza de que não estou violando muitas suposições estatísticas.
Respostas:
Depende um pouco do seu objetivo, mas se você estiver atrás de uma ferramenta de visualização, há um truque ao aplicar a escala multidimensional à saída da proximidade aleatória da floresta, que pode produzir imagens bonitas e trabalhará com uma mistura de dados categóricos e contínuos. Aqui você classificaria as espécies de acordo com seus preditores. Mas - e é uma grande ressalva - não sei se alguém realmente sabe o que significa o resultado dessas visualizações.
Outra alternativa pode ser aplicar a escala multidimensional a algo como a semelhança de Gower.
Há uma pergunta pendente - qual é o seu objetivo final? Que pergunta você quer responder? Gosto dessas técnicas como ferramentas exploratórias que talvez o levem a fazer mais e melhores perguntas, mas não sei o que elas explicam ou dizem por si mesmas.
Talvez eu esteja lendo muito sobre sua pergunta, mas se você quiser explorar quais variáveis preditivas têm os valores dos híbridos situados entre as duas espécies puras, talvez seja melhor criar um modelo para estimar os valores das variáveis preditivas que levam para as espécies e os híbridos diretamente. Se você deseja medir como as variáveis estão relacionadas entre si, talvez crie uma matriz de correlação - e há muitas visualizações legais para isso.
fonte