Alguém pode me ajudar a entender a fórmula de correlação de Pearson? a amostra = a média dos produtos das contagens padrão das variáveis X e Y .
Eu meio que entendo por que eles precisam padronizar e Y , mas como entender os produtos de ambas as pontuações z?
Essa fórmula também é chamada de "coeficiente de correlação momento-produto", mas qual é a justificativa para a ação do produto? Não tenho certeza se deixei minha pergunta clara, mas só quero lembrar a fórmula intuitivamente.
correlation
descriptive-statistics
pearson-r
Aaron Lu
fonte
fonte
Respostas:
Nos comentários, foram sugeridas 15 maneiras de entender o coeficiente de correlação:
As 13 maneiras discutidas no artigo de Rodgers e Nicewander (The American Statistician, fevereiro de 1988) são
Uma função de notas e meios brutos,
Covariância Padronizada,
onde é covariância de amostra es X e ssXY sX são desvios padrão da amostra.sY
Inclinação Padronizada da Linha de Regressão,
onde e b X ⋅ Y são as inclinações das linhas de regressão.bY⋅X bX⋅Y
A média geométrica das duas inclinações de regressão,
A raiz quadrada da razão de duas variações (proporção de variabilidade contabilizada),
O produto cruzado médio de variáveis padronizadas,
Uma função do ângulo entre as duas linhas de regressão padronizada. As duas linhas de regressão (de vs. X e X vs. Y ) são simétricas em relação à diagonal. Seja o ângulo entre as duas linhas β . EntãoY X X Y β
Uma função do ângulo entre os dois vetores variáveis,
Estimated from the "Balloon" Rule,
whereH is the vertical range of the entire X−Y scatterplot and h is the range through the "center of the distribution on the X axis" (that is, through the point of means).
In Relation to the Bivariate Ellipses of Isoconcentration,
whereD and d are the major and minor axis lengths, respectively. r also equals the slope of the tangent line of an isocontour (in standardized coordinates) at the point the contour crosses the vertical axis.
A Function of Test Statistics from Designed Experiments,
wheret is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1 ) and n is the combined total number of observations in the two treatment groups.
The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large valueXc of X . Then
(Most of this is verbatim, with very slight changes in some of the notation.)
Some other methods (perhaps original to this site) are
Via circles.r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.
By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--isr .
fonte