Eu tenho 21 variáveis socioeconômicas e de nível macro de atitude (como porcentagem de mães de 24 a 54 anos que não estão empregadas, porcentagem de crianças de 3 a 5 anos em creches e assim por diante). Também tenho dados sobre as proporções de avós que prestaram cuidados infantis intensivos. A maioria das variáveis socioeconômicas que selecionei estão altamente correlacionadas com a prestação de cuidados infantis (por exemplo, há uma correlação negativa entre a proporção de mães empregadas em regime de meio período e a prestação de cuidados infantis com avós).
Idealmente, gostaria de criar uma tipologia de diferentes tipos de países. Minha esperança seria usar algum tipo de técnica de redução de dimensão cujos componentes ou fatores fizessem algum sentido intuitivo (por exemplo, atitudes em relação à família e gênero, estrutura do mercado de trabalho, políticas familiares). Ou, alternativamente, avalie qual dos 21 indicadores em nível macro melhor explica a variabilidade na prestação de assistência infantil em todos os países.
Meu principal problema é que tenho apenas 12 países europeus. Acho que a análise de PCA e fator não é uma técnica apropriada em tão poucos casos. Estou correcto? Disseram-me para tentar usar a análise comparativa qualitativa ou a análise de correspondência múltipla, embora, para meu entendimento, as últimas técnicas sejam mais apropriadas para indicadores binários (ou categóricos) em nível macro (enquanto os meus são porcentagens ou variáveis contínuas).
Respostas:
Como o comentário / resposta de Peter Ellis sugere, você está falando sobre redução de dimensionalidade e não redução de dados. Você alterou o número de pontos de dados apenas o tamanho do espaço das covariáveis. Agora, Peter Flom está certo de que os métodos PCA e FA podem ser tentados com tamanhos de amostra pequenos, mas não são apenas as correlações que provavelmente são mal estimadas, mas também que você pode ser enganado a cair em dimensões muito baixas porque os recursos podem parecer mais altamente correlacionados do que teriam sido com uma amostra maior. Eu não recomendaria.
fonte
cor( rnorm(3), rnorm(3) )
R
Eu iria para a análise de co-inércia, que é uma variante tácita da análise canônica . Isso daria a você uma combinação linear das 21 variáveis que possui a maior co-inércia com uma combinação linear de dados de puericultura (ou com puericultura, se for uma única variável quantitativa). O truque de trabalhar com co-inércia em vez de correlação é que você ainda pode executar os cálculos quando houver mais variáveis que observações.
Infelizmente, a CIA não é muito difundida. Foi desenvolvido para a ecologia, onde geralmente há mais variáveis do que locais de observação. Você pode encontrar algumas informações técnicas em Dray, Chessel e Thioulouse, Ecology 84 (11), 3078-89, 2003 .
Dito isto, os outros comentários / respostas estão certos de que 12 é um número relativamente pequeno e você terá que conviver com isso ...
fonte
A análise fatorial exploratória regularizada foi projetada com esse problema em mente. Os autores têm o código Matlab disponível.
fonte