Eu estou lendo esta nota .
Na página 2, declara:
"Quanto da variação nos dados é explicada por um determinado modelo de regressão?"
"A interpretação da regressão é sobre a média dos coeficientes; a inferência é sobre sua variação".
Eu li sobre essas afirmações várias vezes, por que nos preocuparíamos com "quanto da variação nos dados é explicada pelo modelo de regressão fornecido?" ... mais especificamente, por que "variação"?
Respostas:
por que nos preocuparíamos com "quanto da variação nos dados é explicada pelo modelo de regressão fornecido?"
Para responder a isso, é útil pensar exatamente no que significa que uma certa porcentagem da variância seja explicada pelo modelo de regressão.
Deixe queY1,...,Yn é a variável de resultado. A variação usual da amostra da variável dependente em um modelo de regressão é Agora deixeseja a previsão debase em mínimos lineares modelo de regressão com valores preditores. Conforme comprovadoaqui, essa variação acima pode ser particionada como:
Na regressão de mínimos quadrados, a média dos valores previstos é ; portanto, a variação total é igual à diferença quadrática média entre os valores observados e os previstos (variação residual) mais a variação amostral das próprias previsões (explicadas variação), que são apenas uma função dos s . Portanto, a variação "explicada" pode ser considerada como a variação em atribuível à variação em . A proporção da variação em que é "explicada" (ou seja, a proporção da variação em que é atribuível à variação em XYiXiYY¯¯¯¯ X YEu XEu Y i XYEu YEu R 2XEu ) às vezes é chamado de . R2
Agora, usamos dois exemplos extremos para esclarecer por que essa decomposição de variância é importante:
(1) Os preditores não têm nada a ver com as respostas . Nesse caso, o melhor preditor imparcial (no sentido dos mínimos quadrados) para é . Portanto, a variação total em é igual à variação residual e não está relacionada à variação nos preditores .Y i =YEu YYˆEu= Y¯¯¯¯ X iYEu XEu
(2) Os preditores estão perfeitamente linearmente relacionados aos preditores . Nesse caso, as previsões estão exatamente corretas e . Portanto, não há variação residual e toda a variação no resultado é a variação nas próprias previsões, que são apenas uma função dos preditores. Portanto, toda a variação no resultado é simplesmente devida à variação nos preditores .X iYˆEu= YEu XEu
Situações com dados reais geralmente ficam entre os dois extremos, assim como a proporção de variação que pode ser atribuída a essas duas fontes. Quanto mais "variância explicada" houver - ou seja, quanto maior a variação em devido à variação em - melhores serão as previsões (ou seja, menor será a "variação residual" é), que é outra maneira de dizer que o modelo de mínimos quadrados se encaixa bem. X i Y iYEu XEu YˆEu
fonte
Não posso correr com os grandes nomes da estatística que responderam antes de mim, e talvez meu pensamento seja ingênuo, mas eu vejo dessa maneira ...
Imagine que você está em um carro e está descendo a estrada e girando o volante para a esquerda e direita e pressionando o pedal do acelerador e os freios freneticamente. No entanto, o carro está se movendo suavemente, sem ser afetado por suas ações. Você suspeitaria imediatamente que não estava em um carro de verdade e, talvez, se olhássemos de perto, determinaríamos que você está passeando na Disney World. (Se você estivesse em um carro real, estaria em perigo mortal, mas não vamos lá.)
Por outro lado, se você estava dirigindo pela estrada em um carro e girando o volante levemente para a esquerda ou para a direita, imediatamente resultou no movimento do carro, pisar nos freios resultou em uma forte desaceleração, enquanto pressionar o pedal do acelerador o jogava de volta no carro. assento. Você pode suspeitar que estava em um carro esportivo de alto desempenho.
Em geral, você provavelmente experimenta algo entre esses dois extremos. O grau em que suas entradas (direção, freios, gasolina) afetam diretamente o movimento do carro fornece uma pista sobre a qualidade do carro. Ou seja, quanto maior a variação do movimento do seu carro relacionada às suas ações, melhor o carro e mais ele se move independentemente do seu controle, pior o carro.
De maneira semelhante, você está falando sobre a criação de um modelo para alguns dados (vamos chamá-los de ), com base em outros conjuntos de dados (vamos chamá-los de ). Se não varia, é como um carro que não está se movendo e não há realmente nenhum ponto em discutir se o carro (modelo) funciona bem ou não, então vamos supor varia.x 1 , x 2 , . . . , x i y yy x1,x2,...,xi y y
Assim como o carro, um modelo de boa qualidade terá uma boa relação entre os resultados variando e as entradas variando. Diferentemente de um carro, o não necessariamente faz com que mude, mas se o modelo for útil, o precisa mudar em um relacionamento próximo com . Em outras palavras, o explica grande parte da variação em .x i x i y x i y x i yy xi xi y xi y xi y
PS: Não consegui criar uma analogia com o Ursinho Pooh, mas tentei.
PPS [EDIT:] Observe que estou abordando essa questão em particular. Não fique confuso ao pensar que, se você responder por 100% da variação, seu modelo terá um desempenho maravilhoso. Você também precisa pensar em ajustes excessivos, em que seu modelo é tão flexível que se ajusta muito bem aos dados de treinamento - incluindo suas peculiaridades e esquisitices aleatórias. Para usar a analogia, você quer um carro com boa direção e freios, mas deseja que ele funcione bem na estrada, não apenas na pista de teste que está usando.
fonte