Eu já li todas as páginas deste site tentando encontrar a resposta para o meu problema, mas ninguém parece ser o certo para mim ...
Primeiro, explico o tipo de dados com o qual estou trabalhando ...
Digamos que eu tenha um vetor de matriz com vários nomes de cidade, um para cada um dos 300 usuários. Eu também tenho outro vetor de matriz com respostas de pontuação a uma pesquisa de cada usuário ou um valor contínuo para cada usuário.
Gostaria de saber se existe um coeficiente de correlação que calcule a correlação entre essas duas variáveis, portanto, variáveis nominais e numéricas / ordinais
Pesquisei na Internet e, em algumas páginas, eles sugerem o uso do coeficiente de contingência ou do V de Cramer ou do coeficiente Lambda ou Eta. Para cada uma dessas medidas, basta dizer que elas poderiam ser aplicadas a esses dados nos quais temos uma variável nominal e um intervalo ou variável numérica. O fato é que pesquisar e pesquisar, tentando entender cada uma delas, em algum momento é escrito ou observando os exemplos de que eles são razoáveis para usá-las se você tiver uma variável nominal dicotômica, exceto para o Cramer V, outras vezes não é escrito nenhum requisito para o tipo de dados. Muitas outras páginas dizem que é correto aplicar a regressão, isso é correto, mas eu gostaria de saber se existe um coeficiente como pearson / spearman para esse tipo de dados.
Também acho que não é tão apropriado usar o coeficiente de correlação de Spearman, já que as cidades não são classificáveis.
Eu também construí a função de Cramer V e Eta por mim mesmo (estou trabalhando com Matlab), mas para Eta eles não falam sobre nenhum valor p para ver se o coeficiente é estatisticamente significativo ...
No site matlabWorks, também há uma boa caixa de ferramentas que diz para calcular eta ^ 2, mas o tipo de entrada necessário não é compreensível.
Está aqui alguém que fez um teste como o meu? Se você precisar de mais detalhes para entender o tipo de dados que estou usando, basta me perguntar e tentarei explicar melhor.
Respostas:
Intervalo nominal vs
A medida mais clássica de "correlação" entre uma variável nominal e um intervalo ("numérica") é Eta , também chamada de razão de correlação, e igual ao quadrado R da raiz da ANOVA unidirecional (com valor-p = valor da ANOVA). O Eta pode ser visto como uma medida de associação simétrica, como a correlação, porque o Eta da ANOVA (com o nominal como independente, numérico como dependente) é igual ao traço de Pillai de regressão multivariada (com o numérico como independente, conjunto de variáveis dummy correspondentes ao nominal como dependente).
Uma medida mais sutil é o coeficiente de correlação intraclasse ( ICC ). Enquanto o Eta compreende apenas a diferença entre os grupos (definida pela variável nominal) em relação à variável numérica, o ICC também mede simultaneamente a coordenação ou concordância entre os valores numéricos dentro dos grupos; em outras palavras, a ICC (particularmente a versão original da ICC de "emparelhamento" imparcial original) permanece no nível de valores, enquanto o Eta opera no nível de estatística (médias de grupo versus variações de grupo).
Nominal vs Ordinal
A questão sobre a medida de "correlação" entre uma variável nominal e uma ordinal é menos aparente. A razão da dificuldade é que a escala ordinal é, por sua natureza, mais "mística" ou "distorcida" do que as escalas intervalares ou nominais. Não é de admirar que as análises estatísticas especialmente para dados ordinais sejam relativamente pouco formuladas até o momento.
Uma maneira pode ser converter seus dados ordinais em classificações e, em seguida, calcular o Eta como se as classificações fossem dados de intervalo. O valor p de tal Eta = o da análise de Kruskal-Wallis. Essa abordagem parece justificada devido ao mesmo raciocínio do porquê Spearman rho é usado para correlacionar duas variáveis ordinais. Essa lógica é "quando você não souber as larguras de intervalo na escala, corte o nó górdio linearizando qualquer monotonicidade possível: vá classificar os dados".
Outra abordagem (possivelmente mais rigorosa e flexível) seria usar a regressão logística ordinal com a variável ordinal como DV e a nominal como IV. A raiz quadrada do pseudo-quadrado R de Nagelkerke (com o valor p da regressão) é outra medida de correlação para você. Observe que você pode experimentar várias funções de link na regressão ordinal. Essa associação, no entanto, não é simétrica: o nominal é assumido independente.
Ainda outra abordagem pode ser encontrar uma transformação tão monotônica dos dados ordinais em intervalo - em vez de classificar o penúltimo parágrafo - que maximizaria R (ie Eta ) para você. Isso é regressão categórica (= regressão linear com escala ideal).
Ainda outra abordagem é executar a árvore de classificação , como CHAID, com a variável ordinal como preditor. Este procedimento agrupará (portanto, é a abordagem oposta à anterior) categorias ordenadas adjacentes que não distinguem entre as categorias do preditor nominal. Então você pode confiar nas medidas de associação baseadas no qui-quadrado (como o V de Cramer) como se correlacionasse variáveis nominais versus variáveis nominais.
E @ Michael, em seu comentário, sugere mais uma maneira: um coeficiente especial chamado Freeman's Theta .
Então, chegamos até aqui a essas oportunidades: (1) Rank, depois calcule Eta; (2) Use regressão ordinal; (3) Use regressão categórica ("otimamente" transformando a variável ordinal em intervalo); (4) Use a árvore de classificação ("otimamente" reduzindo o número de categorias ordenadas); (5) Use o teta de Freeman.
fonte
fonte