Dados discretos e alternativas ao PCA

Eu tenho um conjunto de dados de variáveis discretas (ordinais, merísticas e nominais) que descrevem caracteres morfológicos das asas em várias espécies de insetos intimamente relacionadas. O que pretendo fazer é realizar algum tipo de análise que me dê uma representação visual da semelhança das diferentes espécies com base nas características morfológicas. A primeira coisa que me veio à cabeça foi o PCA (esse é o tipo de visualização que estou procurando criar), mas depois de analisá-lo (particularmente outras questões como: A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura contínua de e variáveis categóricas?), parece que o PCA pode ser inadequado para dados discretos (o PCA é usado nesses tipos de estudos na literatura, mas sempre com dados contínuos). Ignorando os antecedentes estatísticos de por que esses dados são inadequados, o PCA me fornece resultados relativamente perfeitos com relação à minha pergunta biológica (grupos de interesse híbridos ficam bem no meio de seus grupos paternos).

Também tentei a análise de correspondência múltipla para apaziguar as estatísticas (pelo menos no que diz respeito a minha compreensão), mas não consigo obter um gráfico análogo ao que obteria com o PCA, onde minhas observações (indivíduos biológicos) são separados digamos por cor para mostrar os diferentes agrupamentos (espécies diferentes, biologicamente falando). Parece que esta análise visa descrever como as variáveis (aqui, minhas características morfológicas) estão relacionadas entre si, e não as observações individuais. E quando planto observações coloridas por grupo, recebo apenas um único valor (talvez uma média) descrevendo todo o conjunto de indivíduos. Eu fiz a análise em R, então talvez eu também não seja tão habilidoso quanto R para fazer minha idéia do enredo funcionar.

Estou correto ao tentar esse tipo de análise com meus dados ou estou fora de controle? Se você não sabia, minha experiência em estatística é limitada, de modo que as equações que acontecem sob essas análises estão por toda parte. Estou tentando conduzir essa análise de forma completamente descritiva (não preciso fazer mais processamento de números a jusante) e li que, se for esse o caso, o PCA será suficiente, mas quero ter certeza de que não estou violando muitas suposições estatísticas.

Você deve conseguir o tipo de gráfico que deseja com a análise de correspondência múltipla. Se você puder nos fornecer um link para seus dados, podemos dar uma olhada. Escalonamento multidimensional é outra possibilidade, mas MCA pode ser visto como uma espécie de escalonamento multidimensional

b Kjetil Halvorsen

O agrupamento de classes latentes é outra opção metodológica. Basicamente, a ACV cria um 'modelo' cuja heterogeneidade no resíduo é usada para agrupar. Historicamente, houve 2 amplos fluxos de pesquisa na literatura, ambos sociológicos. A ACV original remonta a Lazarsfeld, na Columbia, nos anos 50, não era supervisionada e usava dados categóricos - o poLCA de R é um exemplo disso. Mais recentemente, modelos de mistura finita supervisionados para LCA foram desenvolvidos. Não conheço os módulos R, mas existe um software comercial barato ( Latent Gold ). O site da LG tem bons documentos sobre LCA

Mike Hunter

Respostas:

Depende um pouco do seu objetivo, mas se você estiver atrás de uma ferramenta de visualização, há um truque ao aplicar a escala multidimensional à saída da proximidade aleatória da floresta, que pode produzir imagens bonitas e trabalhará com uma mistura de dados categóricos e contínuos. Aqui você classificaria as espécies de acordo com seus preditores. Mas - e é uma grande ressalva - não sei se alguém realmente sabe o que significa o resultado dessas visualizações.

Outra alternativa pode ser aplicar a escala multidimensional a algo como a semelhança de Gower.

Há uma pergunta pendente - qual é o seu objetivo final? Que pergunta você quer responder? Gosto dessas técnicas como ferramentas exploratórias que talvez o levem a fazer mais e melhores perguntas, mas não sei o que elas explicam ou dizem por si mesmas.

Talvez eu esteja lendo muito sobre sua pergunta, mas se você quiser explorar quais variáveis preditivas têm os valores dos híbridos situados entre as duas espécies puras, talvez seja melhor criar um modelo para estimar os valores das variáveis preditivas que levam para as espécies e os híbridos diretamente. Se você deseja medir como as variáveis estão relacionadas entre si, talvez crie uma matriz de correlação - e há muitas visualizações legais para isso.

Patrick Caldon
fonte

Obrigado pela contribuição. Por fim, tudo o que quero dessa análise é ter alguma medida quantitativa da semelhança de algumas espécies em comparação com outras (tenho duas espécies que apenas baseadas na aparência da gestalt se parecem com outras espécies estreitamente relacionadas, mas geneticamente parecem semelhantes a uma espécie diferente, sugerindo hibridização antiga). O ponto principal desta questão de pesquisa é investigar a genética do grupo, e essa análise morfológica simplesmente contribuirá para toda a história biológica. Esse dimensionamento multidimensional levaria a visualizações semelhantes ao PCA?

Você obtém visualizações semelhantes. A idéia / intuição do MDS é construir um mapeamento de um espaço de alta dimensão (para você o espaço de características morfológicas) para algum espaço de baixa dimensão (como um plano plano 2D), de modo que a distância no espaço de alta dimensão seja "praticamente a mesmo "que o baixo espaço dimensional. Você pode plotar o plano plano 2D. Mas depende de obter uma métrica de distância para o espaço dimensional alto de algum lugar.

Patrick Caldon