Ensino um curso introdutório de geografia econômica. Para ajudar meus alunos a entender melhor os tipos de países encontrados na economia mundial contemporânea e apreciar as técnicas de redução de dados, quero construir uma tarefa que crie uma tipologia de diferentes tipos de países (por exemplo, alta renda e alta renda). mfg de valor agregado, expectativa de vida longa; exportador de recursos naturais de alta renda, expectativa de vida média e alta; sendo a Alemanha um elemento do primeiro tipo e o Iêmen um exemplo do segundo tipo). Isso usaria dados do PNUD publicamente disponíveis (que, se bem me lembro, contêm dados socioeconômicos em pouco menos de 200 países; desculpe, não há dados regionais disponíveis).
Antes dessa tarefa, haveria outra que pedisse (usando os mesmos dados - em grande parte intervalo ou nível de razão -) para examinar as correlações entre essas mesmas variáveis.
Minha esperança é que eles primeiro desenvolvam uma intuição para os tipos de relações entre diferentes variáveis (por exemplo, uma relação positiva entre expectativa de vida e [vários indicadores de] riqueza; uma relação positiva entre riqueza e diversidade de exportação). Então, ao usar a técnica de redução de dados, os componentes ou fatores fariam algum sentido intuitivo (por exemplo, o fator / componente 1 captura a importância da riqueza; o fator / componente 2 captura a importância da educação).
Dado que esses são alunos do segundo ao quarto ano, geralmente com exposição limitada ao pensamento analítico de maneira mais geral, que técnica única de redução de dados você sugeriria como mais apropriada para a segunda tarefa? Como são dados populacionais, as estatísticas inferenciais (p-vlaues, etc.) não são realmente necessárias.
fonte
Uma observação rápida: Qualquer que seja as técnicas acima, você deve verificar primeiro as distribuições de suas variáveis, pois muitas delas "exigirão" que você as transforme primeiro usando um logaritmo. Isso revelará alguns dos relacionamentos muito melhor do que o uso das variáveis originais.
fonte
Você pode usar a decomposição CUR como uma alternativa ao PCA. Para decomposição CUR, você pode consultar [1] ou [2]. Na decomposição CUR, C representa as colunas selecionadas, R representa as linhas selecionadas e U é a matriz de ligação. Deixe-me parafrasear a intuição por trás da decompsosição CUR, conforme apresentado em [1];
O bom do CUR é que as colunas base são colunas (ou linhas) reais e é melhor interpretar em oposição ao PCA (que usa SVD trancado).
O algoritmo dado em [1] é fácil de implementar e você pode brincar alterando o limite de erros e obtendo um número diferente de bases.
[1] MW Mahoney e P. Drineas, "decomposições da matriz CUR para análise de dados aprimorada.", Anais da Academia Nacional de Ciências dos Estados Unidos da América, vol. 106, janeiro de 2009, pp. 697-702.
[2] J. Sun, Y. Xie, H. Zhang e C. Faloutsos, “Menos é mais: decomposição de matriz compacta para grandes gráficos esparsos”, Anais da Sétima Conferência Internacional SIAM sobre Mineração de Dados, Citeseer, 2007, p. . 366
fonte
Dependendo dos seus objetivos, a classificação dos registros nos grupos pode ser melhor alcançada por algum método de agrupamento. Para um número relativamente pequeno de casos, o agrupamento hierárquico geralmente é mais adequado, pelo menos na fase exploratória, enquanto que para uma solução mais polida, você pode procurar algum processo iterativo como o K-means. De acordo com o software que você está usando, também é possível usar um processo, que está no SPSS, mas não sei mais onde, chamado cluster de duas etapas, que é rápido, embora opaco, e parece dar bons resultados.
A análise de cluster produz uma solução de classificação que maximiza a variação entre os grupos enquanto minimiza a variação dentro dos referidos grupos. Provavelmente, também produzirá resultados mais fáceis de interpretar.
fonte
Sugiro agrupar variáveis e observações (separadamente) para esclarecer o conjunto de dados. O agrupamento de variáveis (por exemplo, usar Spearmean como uma medida de similaridade como na função do pacote R ) ajudará a ver quais variáveis "funcionam juntas".ρ2
Hmisc
varclus
fonte
Outra opção seria usar os mapas auto-organizados (SOM). Alguma idéia de qual software os alunos usarão? Eu sei que R, por exemplo, tem algumas implementações de SOM. Os SOMs podem falhar no teste de "fatores componentes fazem sentido intuitivamente". (Não necessariamente verdadeiro com PCA, também ...)
fonte