Avalie rapidamente (visualmente) correlações entre dados categóricos ordenados em R?

11

Estou procurando correlações entre as respostas para diferentes perguntas em uma pesquisa ("hum, vamos ver se as respostas da pergunta 11 se correlacionam com as da pergunta 78"). Todas as respostas são categóricas (a maioria delas varia de "muito infeliz" a "muito feliz"), mas algumas têm um conjunto diferente de respostas. A maioria deles pode ser considerada ordinal, então vamos considerar este caso aqui.

Como não tenho acesso a um programa de estatística comercial, devo usar R.

Eu tentei o Rattle (um pacote de mineração de dados freeware para R, muito bacana), mas infelizmente não suporta dados categóricos. Um truque que eu poderia usar é importar em R a versão codificada da pesquisa que tem números (1..5) em vez de "muito infeliz" ... "feliz" e deixar Rattle acreditar que são dados numéricos.

Eu estava pensando em fazer um gráfico de dispersão e ter o tamanho do ponto proporcional ao número de números para cada par. Depois de pesquisar no Google, achei http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/, mas parece muito complicado (para mim).

Não sou estatístico (mas programador), mas tive algumas leituras sobre o assunto e, se bem entendi, o rho de Spearman seria apropriado aqui.

Portanto, a versão curta da pergunta para quem tem pressa: existe uma maneira de traçar rapidamente o rho de Spearman em R ? Uma plotagem é preferível a uma matriz de números porque é mais fácil de observar e também pode ser incluída nos materiais.

Agradeço antecipadamente.

PS: Pensei por um tempo se deveria postar isso no site principal do SO ou aqui. Depois de pesquisar nos dois sites pela correlação R, senti que este site é mais adequado para a pergunta.

wishihadabettername
fonte
2
Você parece que R é inferior ao software de propriedade. :)
Roman Luštrik
Para mim, parece totalmente razoável usar a correlação produto-momento da Pearson (assumindo dados contínuos) no seu caso (assumindo pontos suficientes na sua escala e não um ponto intermediário desconhecido). Campos inteiros da psicologia (por exemplo, personalidade ou psicologia social) se baseiam (com sucesso) na suposição de que respostas a um único item em uma escala de, por exemplo, cinco pontos (ou sete pontos) variando de muito un-X a muito X podem ser tratado como contínuo. Veja também este tópico: stats.stackexchange.com/questions/539/…
Henrik
@romunov: Não sei como você teve a impressão de que eu acredito que R é inferior a outros s / w. Mas não é o caso.
wishihadabettername
Eu estava apenas sendo um espertinho. Espero que não haja ressentimentos. :)
Roman Luštrik

Respostas:

19

Outra boa visualização da correlação é oferecida pelo pacote corrplot , fornecendo coisas assim: texto alternativo

É um ótimo pacote.

Também dê uma olhada na resposta aqui , talvez seja bom que você saiba.

Por fim, se você tiver sugestões de como o código na postagem a que você se refere poderia ser mais simples, informe-me.

Tal Galili
fonte
1
Obrigado Tal, vou tentar corrigir agora. Também gostaria de saber como simplificar sua solução (à qual vinculei a pergunta), mas sou apenas um novato em R para que você saiba mais do que eu. Eu vou atualizar a questão para esclarecer os olhares solução complicada para mim
wishihadabettername
O enredo parece bom. Ele fornece um excelente instantâneo visual do tamanho e direção das correlações. No caso de variáveis ​​categóricas ordenadas por 5 pontos, pode ser útil fornecer outra medida de associação além da correlação de Pearson: por exemplo, correlações policóricas. O tamanho das correlações padrão de Pearson das variáveis ​​categóricas ordenadas é influenciado um pouco pela média das duas variáveis.
precisa saber é o seguinte
3

Algumas idéias adicionais de plotagem são:

Jeromy Anglim
fonte
O girassol é uma solução divertida. Usando um jitter é o que eu tentei quando pela primeira vez eu olhei para o tópico, mas eu achei que fazer não ser suficiente eficaz para a plotagem de matrixs correlação ...
Tal Galili
Sim, o jitter pode ficar bem confuso com uma matriz de dispersão com muitas variáveis. Suponho que o benefício do jitter e do girassol seja que você consiga ver os dados brutos (embora perturbados no caso do jitter).
precisa saber é o seguinte
Acordado (Eu amo jitter, simplesmente não para este :))
Tal Galili