Tal coisa como uma correlação ponderada?

14

Eu tenho alguns dados interessantes sobre os artistas musicais mais populares transmitidos, divididos por local em cerca de 200 distritos do Congresso. Quero ver se é possível pesquisar uma pessoa sobre suas preferências musicais e determinar se ela "escuta como um democrata" ou "escuta como um republicano". (Naturalmente, isso é leve, mas há entropia real nos dados!)

Eu tenho dados sobre cerca de 100 artistas, mais a média de votos percentuais para republicanos e democratas em cada distrito nos últimos três ciclos eleitorais. Por isso, corri uma correlação com cada artista para ver quais eram os mais desproporcionalmente ouvidos em função da participação dos democratas. Essas correlações variam de -0,3 a 0,3 para qualquer artista, com muitas no meio que têm pouco ou nenhum poder preditivo.

Tenho duas perguntas: Primeiro, o número total de fluxos por distrito varia amplamente. No momento, estou correlacionando a porcentagem de todos os fluxos por distrito pertencentes a, digamos, Beyonce, contra a porcentagem de votos dos democratas. Mas o total de fluxos em um distrito pode estar na casa dos milhões, enquanto outro está nos baixos 100.000. Preciso ponderar a correlação de alguma forma para explicar isso?

Segundo, estou curioso em como combinar essas correlações em um palpite composto sobre a política do usuário. Digamos que eu pegue os 20 artistas com os valores correlativos absolutos mais altos (positivos e negativos), dez em cada direção, e pesquiso um usuário sobre o quanto ele ou ela gosta de cada artista. Então, eu tenho votos positivos ou negativos em cada artista, mais a correlação com a política para todos os 20 valores. Existe uma maneira padrão de combinar essas correlações em uma única estimativa? (Estou pensando em algo como o famoso questionário de dialeto do NYTimes , no qual combinamos as probabilidades regionais de 25 perguntas em um mapa de calor. Mas, neste caso, só preciso de um único valor sobre como é o gosto musical de democratas ou republicanos.

Obrigado!

Chris Wilson
fonte

Respostas:

25

A fórmula para correlação de Pearson ponderada pode ser facilmente encontrada na Web , StackOverflow e Wikipedia e é implementada em vários pacotes R, por exemplo , psych , ou pesos e no pacote statsmodels do Python . É calculado como correlação regular, mas com o uso de médias ponderadas ,

mX=EuWEuxEuEuWEu,    mY=EuWEuyEuEuWEu

variações ponderadas ,

sX=EuWEu(xEu-mX)2EuWEu,    sY=EuWEu(yEu-mY)2EuWEu

e covariância ponderada

sXY=EuWEu(xEu-mX)(yEu-mY)EuWEu

tendo tudo isso, você pode calcular facilmente a correlação ponderada

ρXY=sXYsXsY

Quanto à sua segunda pergunta, como eu a entendo, você teria dados sobre correlações entre orientação política e preferência para os vinte artistas e usuários respostas binárias sobre a preferência dele / dela e deseja obter algum tipo de medida agregada dela.

Vamos começar com as correlações médias. Existem vários métodos para calcular as probabilidades , mas não parece haver muitas abordagens para calcular as correlações. Uma coisa que poderia ser feita é usar a transformação de Fisher,z conforme descrito no MathOverflow , ou seja,

ρ¯=tanh-1(j=1Ktanh(ρj)K)

Basicamente, a obtenção de tangentes dos coeficientes de correlação "achatam" os valores extremos (veja abaixo), para que tenham menor influência na estimativa final e tornem sua distribuição mais próxima do normal. Este procedimento também foi descrito por Bushman e Wang (1995) e Corey, Dunlap e Burke (1998).

insira a descrição da imagem aqui

Em seguida, você deve observar que, se , então , então correlação positiva da preferência musical com alguma orientação política é a mesma correlação negativa da aversão musical a essa orientação política e vice-versa.r=cor(X,Y)-r=cor(-X,Y)=cor(X,-Y)

Agora, vamos definir como correlação da preferência musical do ésimo artista com alguma orientação política e como é a preferência dos usuários para ésimo artista, em que para a preferência e para não gostar. Você pode definir sua estimativa final comorjjxEujEujxEuj=1xEuj=-1

r¯Eu=tanh-1(j=1Ktanh(rjxEuj)K)

isto é, calcular a correlação média que inverte os sinais das correlações de acordo com artistas preferidos e não gostados. Ao aplicar esse procedimento, você obtém a "correlação" média da preferência e orientação política dos usuários, que, como a correlação regular varia de a .-11

Mas...

Você não acha que tudo isso é um exagero para algo que é basicamente um problema de regressão múltipla? Em vez de toda a ponderação e média, você pode simplesmente usar a regressão múltipla ponderada (linear ou logística, dependendo da previsão de preferência binária ou preferência de grau em qualquer direção), onde os pesos são baseados no tamanho das subamostras. Você usaria preferência musical para cada artista como preditor. No final, você usará a preferência do usuário para fazer previsões. Essa abordagem é mais simples e mais estatisticamente elegante. Também se aplica em relaçãoponderar os artistas enquanto calcula a média das correlações não corrige seu "impacto" relativo na pontuação final. Além disso, a regressão leva em consideração a taxa básica (ou orientação política padrão), enquanto a média das correlações não. Imagine que a grande maioria da população prefere o grupo , isso deve deixá-lo menos ansioso para prever as contas de regressão e , incluindo a interceptação. O único problema é a multicolinearidade, mas ao calcular a média das correlações, você a ignora, em vez de lidar com ela.UMAB


Bushman, BJ e Wang, MC (1995). Um procedimento para combinar coeficientes de correlação amostral e contagem de votos para obter uma estimativa e um intervalo de confiança para o coeficiente de correlação populacional. Boletim Psicológico, 117 (3), 530.

Corey, DM, Dunlap, WP e Burke, MJ (1998). Correlações médias: valores esperados e viés nas transformações combinadas de Pearson e z de Fisher, The Journal of General Psychology, 125 (3), 245-261.

Tim
fonte
Obrigado! Isso ajuda tremendamente. Atribuirá recompensa quando estiver disponível ainda hoje.
22416 Chris Wilson
@ Tim Como é calculada a covariância ponderada nos casos em que e têm pesos de confiabilidade diferentes? xEuyEu
Kagaratsch 19/01/19
1
@ Kagaratsch Eu nunca vi essa fórmula. Isso é uma boa pergunta a ser feita.
Tim