Por que a regressão linear usa uma função de custo com base na distância vertical entre a hipótese e o ponto de dados de entrada?

14

Digamos que temos os pontos de dados de entrada (preditor) e de saída (resposta) A, B, C, D, E e queremos ajustar uma linha através dos pontos. Este é um problema simples para ilustrar a pergunta, mas também pode ser estendido para dimensões superiores.

Declaração do Problema

insira a descrição da imagem aqui

O melhor ajuste ou hipótese atual é representado pela linha preta acima. A seta azul ( ) representa a distância vertical entre o ponto de dados e o melhor ajuste atual, desenhando uma linha vertical do ponto até cruzar a linha.

A seta verde ( ) é desenhada de modo que seja perpendicular à hipótese atual no ponto de interseção e, portanto, representa a menor distância entre o ponto de dados e a hipótese atual. Para os pontos A e B, uma linha desenhada de modo que seja vertical ao melhor palpite atual e seja semelhante a uma linha vertical ao eixo x. Para esses dois pontos, as linhas azul e verde se sobrepõem, mas não para os pontos C, D e E.

O princípio dos mínimos quadrados define a função de custo para a regressão linear, desenhando uma linha vertical através dos pontos de dados (A, B, C, D ou E) até a hipótese estimada ( ), em qualquer ciclo de treinamento e é representado por

CostFunction=i=1N(yihθ(xi))2

Aqui representa os pontos de dados e representa o melhor ajuste.(xi,yi)hθ(xEu)

A distância mínima entre um ponto (A, B, C, D ou E) é representada por uma linha perpendicular traçada a partir desse ponto até a melhor estimativa atual (setas verdes).

O objetivo da função de mínimos quadrados é definir uma função objetiva que, quando minimizada, daria origem à menor distância entre a hipótese e todos os pontos combinados, mas não necessariamente minimizará a distância entre a hipótese e um único ponto de entrada.

**Questão**

Por que não definimos a Função Custo para regressão linear como a menor distância entre o ponto de dados de entrada e a hipótese (definida por uma linha perpendicular à hipótese) que passa pelo datapoin de entrada, conforme indicado por ( )?

alpha_989
fonte
5
A regressão linear simples assume que não há erro nos valores das coordenadas x das observações (por exemplo, porque são manipulações experimentais). Se houver erros no eixo x, é possível explicá-los, minimizando uma função de custo semelhante à que você propõe; isso requer definir a razão entre a variação dos erros nos eixos xe y. Se a razão , isso equivale a minimizar a distância perpendicular entre os pontos e a linha (regressão ortogonal). Se a razão é chamada de Deeming regression=11
matteo
Veja esta publicação no PCA: cerebralmastication.com/2010/09/…
James

Respostas:

13

Quando você tem ruído na variável dependente (erros verticais) e na variável independente (erros horizontais), a função objetiva de mínimos quadrados pode ser modificada para incorporar esses erros horizontais. O problema de como ponderar esses dois tipos de erros. Essa ponderação geralmente depende da proporção das variações dos dois erros:

  1. Se a variação do erro vertical for extremamente grande em relação à variação do erro horizontal, o OLS estará correto.
  2. Se a variação do erro horizontal for extremamente grande em relação à variação do erro vertical, menos quadrados inversos (nos quais é regredido em yxy e o inverso da estimativa do coeficiente para é usado como estimativa de β ) são adequados.yβ
  3. Se a razão entre a variação do erro vertical e a variação do erro horizontal for igual à razão das variações das variáveis ​​dependentes e independentes, temos o caso da regressão "diagonal", na qual uma estimativa consistente resulta em seja a média geométrica dos estimadores de OLS e mínimos quadrados inversos.
  4. Se a razão dessas variações de erro for uma, teremos o caso da regressão "ortogonal", na qual a soma dos erros ao quadrado medidos ao longo de uma linha perpendicular à linha de estimativa é minimizada. Isto é o que você tinha em mente.

Na prática, a grande desvantagem desse procedimento é que a proporção das variações de erro geralmente não é conhecida e geralmente não pode ser estimada; portanto, o caminho a seguir não é claro.

Dimitriy V. Masterov
fonte
Tentei editar para alterar "dependente" para "independente" na primeira frase, mas as edições devem ter 6 caracteres. Talvez atualize a resposta para corrigir o erro de digitação?
Ryan Stout
@RyanStout Obrigado, e pronto. Eu acho que a inserção de espaços ajudará você a resolver isso.
Dimitriy V. Masterov
Agora estou um pouco confuso: os erros verticais não são erros na variável dependente (y) e erros horizontais na variável independente (x)?
Ryan Stout
@RyanStout Eu errei tudo de novo #
Dimitriy V. Masterov
9

Uma razão é que é relativamente fácil de calcular e otimizar, enquanto o custo proposto N i = 1 min x , y [ ( y i - h θ ( x ) ) 2 + ( x i - x ) 2 ]

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
fonte
Este é um bom ponto. Eu estava pensando em como calcular a função de custo em geral.
alpha_989
Não tenho necessariamente certeza de como avaliar a distância entre o ponto e um plano / superfície não linear, mas para avaliar a distância entre um ponto e uma superfície / plano linear, talvez não precisemos de minimização aninhada: mathinsight.org/distance_point_plane
alpha_989
Em segundo lugar, quando usamos regressão, nosso objetivo é avaliar os pesos para encontrar o melhor ajuste. Pelo que entendi, durante o cálculo real, raramente avaliamos a função de custo, mas alguma derivada da função de custo?
alpha_989
1
@whuber. Entendo. Depois de estabelecermos esses significados para esses dois termos, concordo que os problemas que estão sendo resolvidos são diferentes (existe ou não existe a possibilidade de haver erro em x). Não acho que você receba amplo acordo de pessoas conhecedoras sobre o significado desses termos, mas esse é um ponto secundário.
estocástica
1
@ Estocástico Eu concordo que pode haver imprecisão sobre o conceito de "ajuste de curva", mas o conceito de regressão que estou invocando aparece nos escritos das melhores autoridades.
whuber
2

A versão simplificada é que X é assumido como sem erro. Portanto, se você observar o ponto E em seu gráfico, por exemplo, presume-se que sua coordenada X seja precisamente precisa. Normalmente, esse é o caso quando podemos controlar o X, ou seja, quando podemos configurá-lo para um valor específico. Nesse caso, o único erro que pode existir é na direção Y, e é por isso que a função de erro / custo inclui apenas a direção Y.

Sempre que não é esse o caso, sempre que não controlamos X e X podem ter erros, as pessoas incorporam a direção X na função de erro em algo chamado regressão tipo II ou modelo II e suas variantes. Pode ser complicado fazer isso se X e Y tiverem escalas diferentes, então você deve pensar em normalizações e coisas do tipo.

CHP
fonte
1

Correndo o risco de ser prosaico, a razão da função de erro é que a interpretação padrão é que o x é dado e um está tentando melhor descrever (ou prever) o componente y. Portanto, não há erro no 'x'. Por exemplo, você pode tentar entender (ou prever) o preço de fechamento de uma ação amanhã com base no preço de fechamento de hoje. Da mesma forma, pode-se tentar entender a temperatura média amanhã em termos da temperatura média atual. Obviamente, esses exemplos são simples, mas essa é a ideia. A propósito, algo que a maioria das pessoas não percebe, mas acho que fica claro nos seus exemplos, é que, se alguém regredir y contra x, a linha de regressão não precisa ter nenhuma semelhança específica com a regressão de x contra y. Regressão ortogonal é o termo para uma regressão em que se tenta encontrar a linha que minimiza a distância dos pontos de uma linha. Por exemplo, se alguém estivesse tentando entender a relação entre o preço das ações da IBM e o preço das ações da AAPL, esse seria o método apropriado.

meh
fonte
1

Você está certo que, ao ajustar uma linha através de pontos, a distância ortogonal é a função de perda mais natural que pode ser aplicada a linhas arbitrárias (observe que a distância y se torna sem sentido para linhas perpendiculares ao eixo x). Esse problema é conhecido sob vários nomes, por exemplo, "regressão ortogonal" ou (o termo mais usado, AFAIK) "Análise de Componentes Principais" (PCA). Para uma discussão sobre esse problema em dimensões arbitrárias, consulte

Späth: "Mínimos quadrados ortogonais ajustados com coletores lineares". Numerische Mathematik 48, pp. 441–445, 1986

Como @aginensky já apontou, a idéia por trás da regressão linear não é ajustar uma linha através dos pontos, mas prever valores y para determinados valores x. É por isso que apenas a distância em y é usada, que é a precisão da previsão.

x(t)pii=1Nt

Wang, Pottmann, Liu: "Ajustando curvas de spline B para apontar nuvens por minimização da distância ao quadrado baseada em curvatura". ACM Transactions on Graphics 25.2, pp. 214-238, 2006

cdalitz
fonte