A fórmula para correlação de Pearson ponderada pode ser facilmente encontrada na Web , StackOverflow e Wikipedia e é implementada em vários pacotes R, por exemplo , psych , ou pesos e no pacote statsmodels do Python . É calculado como correlação regular, mas com o uso de médias ponderadas ,
mX= ∑EuWEuxEu∑EuWEu, m Y= ∑EuWEuyEu∑EuWEu
variações ponderadas ,
sX= ∑EuWEu( xEu- mX)2∑EuWEu, s Y= ∑EuWEu( yEu- mY)2∑EuWEu
e covariância ponderada
sXY= ∑EuWEu( xEu- mX) ( yEu- mY)∑EuWEu
tendo tudo isso, você pode calcular facilmente a correlação ponderada
ρXY= sXYsXsY----√
Quanto à sua segunda pergunta, como eu a entendo, você teria dados sobre correlações entre orientação política e preferência para os vinte artistas e usuários respostas binárias sobre a preferência dele / dela e deseja obter algum tipo de medida agregada dela.
Vamos começar com as correlações médias. Existem vários métodos para calcular as probabilidades , mas não parece haver muitas abordagens para calcular as correlações. Uma coisa que poderia ser feita é usar a transformação de Fisher,z conforme descrito no MathOverflow , ou seja,
ρ¯= tanh- 1( ∑Kj = 1tanh( ρj)K)
Basicamente, a obtenção de tangentes dos coeficientes de correlação "achatam" os valores extremos (veja abaixo), para que tenham menor influência na estimativa final e tornem sua distribuição mais próxima do normal. Este procedimento também foi descrito por Bushman e Wang (1995) e Corey, Dunlap e Burke (1998).
Em seguida, você deve observar que, se , então , então correlação positiva da preferência musical com alguma orientação política é a mesma correlação negativa da aversão musical a essa orientação política e vice-versa.r = c o r ( X, Y)- r = c o r ( - X, Y) = c ou r ( X, - Y)
Agora, vamos definir como correlação da preferência musical do ésimo artista com alguma orientação política e como é a preferência dos usuários para ésimo artista, em que para a preferência e para não gostar. Você pode definir sua estimativa final comorjjxeu jEujxeu j= 1xeu j= - 1
r¯Eu= tanh- 1( ∑Kj = 1tanh( rjxeu j)K)
isto é, calcular a correlação média que inverte os sinais das correlações de acordo com artistas preferidos e não gostados. Ao aplicar esse procedimento, você obtém a "correlação" média da preferência e orientação política dos usuários, que, como a correlação regular varia de a .- 11
Mas...
Você não acha que tudo isso é um exagero para algo que é basicamente um problema de regressão múltipla? Em vez de toda a ponderação e média, você pode simplesmente usar a regressão múltipla ponderada (linear ou logística, dependendo da previsão de preferência binária ou preferência de grau em qualquer direção), onde os pesos são baseados no tamanho das subamostras. Você usaria preferência musical para cada artista como preditor. No final, você usará a preferência do usuário para fazer previsões. Essa abordagem é mais simples e mais estatisticamente elegante. Também se aplica em relaçãoponderar os artistas enquanto calcula a média das correlações não corrige seu "impacto" relativo na pontuação final. Além disso, a regressão leva em consideração a taxa básica (ou orientação política padrão), enquanto a média das correlações não. Imagine que a grande maioria da população prefere o grupo , isso deve deixá-lo menos ansioso para prever as contas de regressão e , incluindo a interceptação. O único problema é a multicolinearidade, mas ao calcular a média das correlações, você a ignora, em vez de lidar com ela.UMAB
Bushman, BJ e Wang, MC (1995). Um procedimento para combinar coeficientes de correlação amostral e contagem de votos para obter uma estimativa e um intervalo de confiança para o coeficiente de correlação populacional. Boletim Psicológico, 117 (3), 530.
Corey, DM, Dunlap, WP e Burke, MJ (1998). Correlações médias: valores esperados e viés nas transformações combinadas de Pearson e z de Fisher, The Journal of General Psychology, 125 (3), 245-261.