O coeficiente de correlação de Pearson de x e y é o mesmo, calculando pearson (x, y) ou pearson (y, x). Isso sugere que fazer uma regressão linear de y dado x ou x dado y deve ser o mesmo, mas não acho que seja esse o caso.
Alguém pode esclarecer quando o relacionamento não é simétrico e como isso se relaciona com o coeficiente de correlação de Pearson (que eu sempre acho que resume a melhor linha de ajuste)?
regression
correlation
linear-model
pearson-r
user9097
fonte
fonte
Respostas:
A melhor maneira de pensar sobre isso é imaginar um gráfico de dispersão de pontos com no eixo vertical e representada pelo eixo horizontal. Dada essa estrutura, você vê uma nuvem de pontos, que podem ser vagamente circulares ou podem ser alongados em uma elipse. O que você está tentando fazer em regressão é encontrar o que pode ser chamado de "linha de melhor ajuste". No entanto, embora isso pareça simples, precisamos descobrir o que queremos dizer com 'melhor', e isso significa que devemos definir o que seria uma linha ser boa ou uma linha ser melhor que a outra, etc. , devemos estipular uma função de perdaxy x . Uma função de perda nos dá uma maneira de dizer o quão "ruim" é algo e, assim, quando minimizamos isso, tornamos nossa linha o mais "boa" possível ou encontramos a melhor linha.
Tradicionalmente, quando realizamos uma análise de regressão, encontramos estimativas da inclinação e interceptação para minimizar a soma dos erros ao quadrado . Eles são definidos da seguinte maneira:
Em termos de nosso gráfico de dispersão, isso significa que estamos minimizando as distâncias verticais (soma do quadrado) entre os pontos de dados observados e a linha.
Por outro lado, é perfeitamente razoável regredir em , mas nesse caso, colocaríamos no eixo vertical, e assim por diante. Se mantido a trama como é (com , no eixo horizontal), regredindo para (mais uma vez, usando uma versão ligeiramente adaptada da equação acima, com e comutada) significa que seria minimizando a soma das distâncias horizontaisy x x x y x yx y x x x y x y entre os pontos de dados observados e a linha. Parece muito semelhante, mas não é exatamente a mesma coisa. (A maneira de reconhecer isso é fazer as duas coisas e, em seguida, converter algebricamente um conjunto de estimativas de parâmetros nos termos do outro. Comparando o primeiro modelo com a versão reorganizada do segundo modelo, fica fácil perceber que eles são não é o mesmo.)
Observe que nenhum dos dois modos produziria a mesma linha que desenharíamos intuitivamente se alguém nos entregasse um pedaço de papel milimetrado com pontos plotados. Nesse caso, desenharíamos uma linha reta no centro, mas minimizar a distância vertical gera uma linha um pouco mais plana (ou seja, com uma inclinação mais rasa), enquanto minimizar a distância horizontal produz uma linha um pouco mais íngreme .
Uma correlação é simétrica; é tão correlacionado com quanto é com . A correlação produto-momento de Pearson pode ser entendida dentro de um contexto de regressão. O coeficiente de correlação, , é a inclinação da linha de regressão quando ambas as variáveis são padronizadas primeiro. Ou seja, primeiro você subtraiu a média de cada observação e depois dividiu as diferenças pelo desvio padrão. A nuvem de pontos de dados agora será centrada na origem e a inclinação será a mesma, se você regredir em ou emy y x r y x x yx y y x r y x x y (mas observe o comentário de @DilipSarwate abaixo).
Agora, por que isso importa? Usando nossa função tradicional de perda, estamos dizendo que todo o erro está em apenas uma das variáveis (viz., ). Ou seja, estamos dizendo que é medido sem erro e constitui o conjunto de valores de que nos preocupamos, mas que tem erro de amostragemx yy x y . Isso é muito diferente de dizer o contrário. Isso foi importante em um episódio histórico interessante: no final dos anos 70 e início dos anos 80 nos EUA, argumentou-se que havia discriminação contra as mulheres no local de trabalho, e isso foi apoiado por análises de regressão que mostraram que mulheres com antecedentes iguais (por exemplo, , qualificações, experiência etc.) foram pagos, em média, menos que os homens. Os críticos (ou apenas as pessoas que eram minuciosas) argumentaram que, se isso fosse verdade, as mulheres que eram pagas da mesma forma que os homens teriam que ser mais altamente qualificadas, mas quando isso foi verificado, verificou-se que, embora os resultados fossem "significativos" quando avaliadas de uma maneira, elas não foram "significativas" quando verificadas da outra maneira, o que deixou todos os envolvidos em choque. Veja aqui para um jornal famoso que tentou esclarecer a questão.
(Atualizado muito mais tarde) Aqui está outra maneira de pensar sobre isso que aborda o tópico através das fórmulas, em vez de visualmente:
A fórmula para a inclinação de uma linha de regressão simples é uma conseqüência da função de perda que foi adotada. Se você estiver usando a função de perda de Mínimos Quadrados Ordinários (observada acima), poderá derivar a fórmula da inclinação que você vê em todos os manuais de introdução. Esta fórmula pode ser apresentada de várias formas; uma das quais chamo de fórmula "intuitiva" para a inclinação. Considere este formulário para a situação em que você está regredindo em e onde você está regredindo em :y x x y
fonte
Vou ilustrar a resposta com algum
R
código e saída.Primeiro, construímos uma distribuição normal aleatória
y
, com média de 5 e DP de 1:Em seguida, criei propositalmente uma segunda distribuição normal aleatória
x
, que é simplesmente 5x o valor dey
caday
:Por design, temos uma correlação perfeita de
x
ey
:No entanto, quando fazemos uma regressão, estamos procurando uma função que se relacione
x
e,y
portanto, os resultados dos coeficientes de regressão dependem de qual deles usamos como variável dependente e de quais usamos como variável independente. Nesse caso, não ajustamos uma interceptação porque fizemosx
uma funçãoy
sem variação aleatória:Então, as regressões nos dizem isso
y=0.2x
e aquilox=5y
, que obviamente são equivalentes. O coeficiente de correlação está simplesmente nos mostrando que há uma correspondência exata nos níveis de mudança de unidade entrex
ey
, de modo que (por exemplo) um aumento de 1 unidadey
sempre produz um aumento de 0,2 unidadex
.fonte
A percepção de que, como a correlação de Pearson é a mesma, quer façamos uma regressão de x contra y, ou y contra x é boa, devemos obter a mesma regressão linear é boa. É apenas um pouco incorreto, e podemos usá-lo para entender o que realmente está ocorrendo.
Esta é a equação de uma reta, que é o que estamos tentando obter de nossa regressão
A equação para a inclinação dessa linha é conduzida pela correlação de Pearson
Esta é a equação para a correlação de Pearson. É o mesmo se estamos regredindo x contra y ou y contra x
No entanto, quando olhamos para a nossa segunda equação para inclinação, vemos que a correlação de Pearson não é o único termo nessa equação. Se estivermos calculando y em relação a x, também temos o desvio padrão da amostra de y dividido pelo desvio padrão da amostra de x. Se calculássemos a regressão de x contra y, precisaríamos inverter esses dois termos.
fonte
Em questões como essa, é fácil se envolver com questões técnicas, portanto, gostaria de me concentrar especificamente na pergunta no título do segmento que pergunta: Qual é a diferença entre a regressão linear em y com xex com y ?
Considere por um momento um modelo econométrico (simplificado) da teoria do capital humano (o link vai para um artigo do ganhador do Nobel Gary Becker). Digamos que especifiquemos um modelo da seguinte forma: Este modelo pode ser interpretado como uma relação causal entre salários e educação. É importante ressaltar que a causalidade nesse contexto significa que a direção da causalidade vai da educação para os salários e não o contrário. Isso está implícito na maneira como o modelo foi formulado; a variável dependente é o salário e a variável independente é o ano de escolaridade.
Agora, se fizermos uma reversão da equação econométrica (ou seja, alterar y em x para x em y), de modo que o modelo se torne então implícitas na formulação da equação econométrica é que estamos dizendo que a direção da causalidade vai dos salários à educação.
Tenho certeza de que você pode pensar em mais exemplos como este (também fora do campo da economia), mas como você pode ver, a interpretação do modelo pode mudar bastante quando mudamos de regressão y em x para x em y.
Então, para a resposta da pergunta: Qual é a diferença entre a regressão linear em y com xex com y? , podemos dizer que a interpretação da equação de regressão muda quando regredimos x em y em vez de y em x. Não devemos ignorar esse ponto, porque um modelo que tem uma interpretação sólida pode rapidamente se transformar em um que faz pouco ou nenhum sentido.
fonte
Há um fenômeno muito interessante sobre esse tópico. Depois de trocar x e y, embora o coeficiente de regressão mude, mas a estatística t / estatística F e o nível de significância para o coeficiente não mudam. Isso também é verdade mesmo na regressão múltipla, na qual trocamos y com uma das variáveis independentes.
Isso se deve a uma delicada relação entre a estatística F e o coeficiente de correlação (parcial). Essa relação realmente toca o núcleo da teoria dos modelos lineares. Há mais detalhes sobre essa conclusão em meu caderno: Por que as trocas yex não têm efeito em p?
fonte
Expandindo a excelente resposta de @ gung:
Em uma regressão linear simples o valor absoluto de Pearson pode ser visto como a média geométrica das duas inclinações que obtemos se regredir sobre e sobre , respectivamente: Podemos obter diretamente usando o our y x x y β^1yonx⋅β^1xony−−−−−−−−−−−−√=Cov(x,y)Var(x)⋅Cov(y,x)Var(y)−−−−−−−−−−−−−−−−−√=|Cov(x,y)|SD(x)⋅SD(y)=|r| r
r=sign(β^1yonx)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√ r=sign(β^1xony)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√
Curiosamente, pela desigualdade AM-GM , segue-se que o valor absoluto da média aritmética dos dois coeficientes de inclinação é maior que (ou igual a) ao valor absoluto do de Pearson :r |12⋅(β^1yonx+β^1xony)|≥β^1yonx⋅β^1xony−−−−−−−−−−−−√=|r|
fonte
A relação não é simétrica porque estamos resolvendo dois problemas diferentes de otimização. pode ser escrita como solução do seguinte problema: Doing regression of y given x minbE(Y−bX)2
enquanto que para : , que pode ser reescrita como:doing regression of x given y minbE(X−bY)2
Também é importante observar que dois problemas de aparência diferente podem ter a mesma solução.
fonte
Bem, é verdade que, para uma regressão bivariada simples, o coeficiente de correlação linear e o quadrado R serão os mesmos para ambas as equações. Mas as inclinações serão r Sy / Sx ou r Sx / Sy, que não são recíprocas uma da outra, a menos que r = 1.
fonte
A idéia básica de regressão pode ser a 'causa e efeito' ou 'independente e dependente'. A prática normal de colocar variável independente no eixo X e variável dependente no eixo Y é representada por Y = mX + c. Se a inclinação deve ser chamada como m (X em Y) ou (Y em X) e a regressão como: (X em Y) ou (Y em X). É tratado de ambos os modos, o que não é bom e precisa ser esclarecido. Os modeladores costumam usar gráficos de dispersão para avaliar se a série simulada corresponde à série observada; e o uso da linha de regressão é inevitável. aqui não há cláusula causal. Atendendo a essa necessidade, a questão muda colocada pelo fio permanece. Ou, simplesmente, esclareça como chamar a análise de regressão normal: X em Y; ou Y em X?, indo além da resposta causal. Não é uma resposta para o tópico principal; mas uma pergunta paralela.
fonte