Técnica de redução de dados para identificar tipos de países

11

Ensino um curso introdutório de geografia econômica. Para ajudar meus alunos a entender melhor os tipos de países encontrados na economia mundial contemporânea e apreciar as técnicas de redução de dados, quero construir uma tarefa que crie uma tipologia de diferentes tipos de países (por exemplo, alta renda e alta renda). mfg de valor agregado, expectativa de vida longa; exportador de recursos naturais de alta renda, expectativa de vida média e alta; sendo a Alemanha um elemento do primeiro tipo e o Iêmen um exemplo do segundo tipo). Isso usaria dados do PNUD publicamente disponíveis (que, se bem me lembro, contêm dados socioeconômicos em pouco menos de 200 países; desculpe, não há dados regionais disponíveis).

Antes dessa tarefa, haveria outra que pedisse (usando os mesmos dados - em grande parte intervalo ou nível de razão -) para examinar as correlações entre essas mesmas variáveis.

Minha esperança é que eles primeiro desenvolvam uma intuição para os tipos de relações entre diferentes variáveis ​​(por exemplo, uma relação positiva entre expectativa de vida e [vários indicadores de] riqueza; uma relação positiva entre riqueza e diversidade de exportação). Então, ao usar a técnica de redução de dados, os componentes ou fatores fariam algum sentido intuitivo (por exemplo, o fator / componente 1 captura a importância da riqueza; o fator / componente 2 captura a importância da educação).

Dado que esses são alunos do segundo ao quarto ano, geralmente com exposição limitada ao pensamento analítico de maneira mais geral, que técnica única de redução de dados você sugeriria como mais apropriada para a segunda tarefa? Como são dados populacionais, as estatísticas inferenciais (p-vlaues, etc.) não são realmente necessárias.

rabidotter
fonte

Respostas:

10

Como método exploratório, o PCA é uma boa primeira opção para uma tarefa como esta IMO. Também seria bom eles se exporem a isso; parece que muitos deles nunca viram componentes principais antes.

Em termos de dados, eu também indicaria os Indicadores do Banco Mundial, que são notavelmente completos: http://data.worldbank.org/indicator .

JMS
fonte
5

Eu concordo com o JMS, e o PCA parece ser uma boa idéia depois de examinar as correlações iniciais e os gráficos de dispersão entre as variáveis ​​de cada município. Este encadeamento tem algumas sugestões úteis para introduzir o PCA em termos não matemáticos.

Eu também sugeriria a utilização de pequenos mapas múltiplos para visualizar as distribuições espaciais de cada uma das variáveis ​​(e há alguns bons exemplos nesta questão no site gis.se). Acho que isso funciona particularmente bem se você tiver um número limitado de unidades de área para comparar e usar um bom esquema de cores (como este exemplo no blog de Andrew Gelman).

Infelizmente, a natureza de qualquer conjunto de dados de "países do mundo" que eu suspeito provavelmente resultaria em dados esparsos (ou seja, em muitos países ausentes), dificultando a visualização geográfica. Mas essas técnicas de visualização devem ser úteis em outras situações, bem como no seu curso.

Andy W
fonte
+1, boas referências. Comparar mapas das variáveis ​​com mapas das pontuações do PCA também pode ser interessante.
JMS
O link para a introdução do PCA em termos não matemáticos foi útil, pois me ajudou a sentir a diferença sutil entre o PCA e a análise fatorial. As sugestões de GIS / mapeamento também são bastante úteis, pois eu não tinha pensado em visualizar a distribuição espacial das variáveis. Para essa população de estudantes, isso os ajudaria a entender as estruturas subjacentes à economia mundial de uma maneira que nem todo meu blá blá blá.
rabidotter
1
Agradáveis parcelas muitas vezes bater blah blah blah :)
JMS
4

Uma observação rápida: Qualquer que seja as técnicas acima, você deve verificar primeiro as distribuições de suas variáveis, pois muitas delas "exigirão" que você as transforme primeiro usando um logaritmo. Isso revelará alguns dos relacionamentos muito melhor do que o uso das variáveis ​​originais.

rolando2
fonte
3
Normalmente, uma resposta como essa deve ser postada como um comentário, mas o conselho é tão importante aqui que se beneficia de todas as ênfases possíveis. Os resultados da PCA, em particular, provavelmente não serão informativos até que as variáveis ​​sejam adequadamente reexpressas.
whuber
2

Você pode usar a decomposição CUR como uma alternativa ao PCA. Para decomposição CUR, você pode consultar [1] ou [2]. Na decomposição CUR, C representa as colunas selecionadas, R representa as linhas selecionadas e U é a matriz de ligação. Deixe-me parafrasear a intuição por trás da decompsosição CUR, conforme apresentado em [1];

Embora o SVD truncado seja amplamente usado, os vetores e podem não ter significado em termos do campo no qual os dados são extraídos. Por exemplo, o vetor própriov iuivi

[(1/2)age − (1/ √2)height + (1/2)income]

ser um dos “fatores” ou “características” não correlacionados significativos de um conjunto de dados de características das pessoas, não é particularmente informativo ou significativo.

O bom do CUR é que as colunas base são colunas (ou linhas) reais e é melhor interpretar em oposição ao PCA (que usa SVD trancado).

O algoritmo dado em [1] é fácil de implementar e você pode brincar alterando o limite de erros e obtendo um número diferente de bases.

[1] MW Mahoney e P. Drineas, "decomposições da matriz CUR para análise de dados aprimorada.", Anais da Academia Nacional de Ciências dos Estados Unidos da América, vol. 106, janeiro de 2009, pp. 697-702.

[2] J. Sun, Y. Xie, H. Zhang e C. Faloutsos, “Menos é mais: decomposição de matriz compacta para grandes gráficos esparsos”, Anais da Sétima Conferência Internacional SIAM sobre Mineração de Dados, Citeseer, 2007, p. . 366

petrichor
fonte
2

Dependendo dos seus objetivos, a classificação dos registros nos grupos pode ser melhor alcançada por algum método de agrupamento. Para um número relativamente pequeno de casos, o agrupamento hierárquico geralmente é mais adequado, pelo menos na fase exploratória, enquanto que para uma solução mais polida, você pode procurar algum processo iterativo como o K-means. De acordo com o software que você está usando, também é possível usar um processo, que está no SPSS, mas não sei mais onde, chamado cluster de duas etapas, que é rápido, embora opaco, e parece dar bons resultados.

A análise de cluster produz uma solução de classificação que maximiza a variação entre os grupos enquanto minimiza a variação dentro dos referidos grupos. Provavelmente, também produzirá resultados mais fáceis de interpretar.

Tomas Boncompte
fonte
2

Sugiro agrupar variáveis ​​e observações (separadamente) para esclarecer o conjunto de dados. O agrupamento de variáveis ​​(por exemplo, usar Spearmean como uma medida de similaridade como na função do pacote R ) ajudará a ver quais variáveis ​​"funcionam juntas".ρ2Hmiscvarclus

Frank Harrell
fonte
1

Outra opção seria usar os mapas auto-organizados (SOM). Alguma idéia de qual software os alunos usarão? Eu sei que R, por exemplo, tem algumas implementações de SOM. Os SOMs podem falhar no teste de "fatores componentes fazem sentido intuitivamente". (Não necessariamente verdadeiro com PCA, também ...)

Wayne
fonte
Desculpe pelo atraso na resposta. Os alunos usariam o Minitab 16, que possui algumas das técnicas mais tradicionais de redução de dados mencionadas acima. Examinarei mapas auto-organizados, mas duvido que seja apropriado para o tipo de aluno que recebo no segundo ano do curso de graduação.
Rabidotter