Por que a regressão sobre variância?

19

Eu estou lendo esta nota .

Na página 2, declara:

"Quanto da variação nos dados é explicada por um determinado modelo de regressão?"

"A interpretação da regressão é sobre a média dos coeficientes; a inferência é sobre sua variação".

Eu li sobre essas afirmações várias vezes, por que nos preocuparíamos com "quanto da variação nos dados é explicada pelo modelo de regressão fornecido?" ... mais especificamente, por que "variação"?

Luna
fonte
"[V] ariance" em oposição a qual, o desvio padrão? Com o que você acha que devemos nos preocupar em regressão? Quais são seus objetivos típicos na construção de um modelo de regressão?
gung - Restabelece Monica
A variação tem unidades diferentes da quantidade que está sendo modelada, então sempre achei difícil interpretar a "proporção de variação explicada pelo modelo".
voa

Respostas:

18

por que nos preocuparíamos com "quanto da variação nos dados é explicada pelo modelo de regressão fornecido?"

Para responder a isso, é útil pensar exatamente no que significa que uma certa porcentagem da variância seja explicada pelo modelo de regressão.

Deixe que Y1,...,Yn é a variável de resultado. A variação usual da amostra da variável dependente em um modelo de regressão é Agora deixeseja a previsão debase em mínimos lineares modelo de regressão com valores preditores. Conforme comprovadoaqui, essa variação acima pode ser particionada como:

1n1i=1n(YiY¯)2
YiY^if^(Xi)Yi1Xi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

Na regressão de mínimos quadrados, a média dos valores previstos é ; portanto, a variação total é igual à diferença quadrática média entre os valores observados e os previstos (variação residual) mais a variação amostral das próprias previsões (explicadas variação), que são apenas uma função dos s . Portanto, a variação "explicada" pode ser considerada como a variação em atribuível à variação em . A proporção da variação em que é "explicada" (ou seja, a proporção da variação em que é atribuível à variação em XYiXiYY¯XYiXiY i XYiYiR 2Xi) às vezes é chamado de . R2

Agora, usamos dois exemplos extremos para esclarecer por que essa decomposição de variância é importante:

  • (1) Os preditores não têm nada a ver com as respostas . Nesse caso, o melhor preditor imparcial (no sentido dos mínimos quadrados) para é . Portanto, a variação total em é igual à variação residual e não está relacionada à variação nos preditores .Y i =Yi YY^i=Y¯X iYiXi

  • (2) Os preditores estão perfeitamente linearmente relacionados aos preditores . Nesse caso, as previsões estão exatamente corretas e . Portanto, não há variação residual e toda a variação no resultado é a variação nas próprias previsões, que são apenas uma função dos preditores. Portanto, toda a variação no resultado é simplesmente devida à variação nos preditores .X iY^i=YiXi

Situações com dados reais geralmente ficam entre os dois extremos, assim como a proporção de variação que pode ser atribuída a essas duas fontes. Quanto mais "variância explicada" houver - ou seja, quanto maior a variação em devido à variação em - melhores serão as previsões (ou seja, menor será a "variação residual" é), que é outra maneira de dizer que o modelo de mínimos quadrados se encaixa bem. X i Y iYiXiY^i

Macro
fonte
É como minha resposta, mas talvez um pouco melhor explicada. Também vejo uma possível critque que poderia ter sido menção é que eu deveria ter escrito a variação em relação à média de Y.
Michael R. Chernick
1
@MichaelChernick, sim, mas na regressão de mínimos quadrados (que eu acho que o OP está falando com base nos slides vinculados), a média dos valores previstos é igual à média dos , então você pode chamá-la de variação de amostra do previsões. Y
Macro
Fiz a edição da minha resposta porque Yb é necessário para que a decomposição da variância funcione corretamente.
22960 Michael Michael Chernick
Sim, ficou claro para mim que ela estava se referindo à regressão de mínimos quadrados. Ainda muito do que você escreveu está apenas repetindo o que eu disse de maneira um pouco diferente. Eu ainda te dei um +1.
Michael R. Chernick
1
Macro, meu argumento foi que essa decomposição ocorre apenas se e então a "regressão" envolve inerentemente uma projeção ortogonal em um espaço que contém o vetor constante. Observe que podemos facilmente "quebrar" essa decomposição simplesmente removendo o vetor constante do nosso modelo, o que parece estar em conflito com o seu comentário mais recente. yy^,y^y¯1=0
cardeal
9

Não posso correr com os grandes nomes da estatística que responderam antes de mim, e talvez meu pensamento seja ingênuo, mas eu vejo dessa maneira ...

Imagine que você está em um carro e está descendo a estrada e girando o volante para a esquerda e direita e pressionando o pedal do acelerador e os freios freneticamente. No entanto, o carro está se movendo suavemente, sem ser afetado por suas ações. Você suspeitaria imediatamente que não estava em um carro de verdade e, talvez, se olhássemos de perto, determinaríamos que você está passeando na Disney World. (Se você estivesse em um carro real, estaria em perigo mortal, mas não vamos lá.)

Por outro lado, se você estava dirigindo pela estrada em um carro e girando o volante levemente para a esquerda ou para a direita, imediatamente resultou no movimento do carro, pisar nos freios resultou em uma forte desaceleração, enquanto pressionar o pedal do acelerador o jogava de volta no carro. assento. Você pode suspeitar que estava em um carro esportivo de alto desempenho.

Em geral, você provavelmente experimenta algo entre esses dois extremos. O grau em que suas entradas (direção, freios, gasolina) afetam diretamente o movimento do carro fornece uma pista sobre a qualidade do carro. Ou seja, quanto maior a variação do movimento do seu carro relacionada às suas ações, melhor o carro e mais ele se move independentemente do seu controle, pior o carro.

De maneira semelhante, você está falando sobre a criação de um modelo para alguns dados (vamos chamá-los de ), com base em outros conjuntos de dados (vamos chamá-los de ). Se não varia, é como um carro que não está se movendo e não há realmente nenhum ponto em discutir se o carro (modelo) funciona bem ou não, então vamos supor varia.x 1 , x 2 , . . . , x i y yyx1,x2,...,xiyy

Assim como o carro, um modelo de boa qualidade terá uma boa relação entre os resultados variando e as entradas variando. Diferentemente de um carro, o não necessariamente faz com que mude, mas se o modelo for útil, o precisa mudar em um relacionamento próximo com . Em outras palavras, o explica grande parte da variação em .x i x i y x i y x i yyxixi yxiyxiy

PS: Não consegui criar uma analogia com o Ursinho Pooh, mas tentei.

PPS [EDIT:] Observe que estou abordando essa questão em particular. Não fique confuso ao pensar que, se você responder por 100% da variação, seu modelo terá um desempenho maravilhoso. Você também precisa pensar em ajustes excessivos, em que seu modelo é tão flexível que se ajusta muito bem aos dados de treinamento - incluindo suas peculiaridades e esquisitices aleatórias. Para usar a analogia, você quer um carro com boa direção e freios, mas deseja que ele funcione bem na estrada, não apenas na pista de teste que está usando.

Wayne
fonte