É muito difícil comparar kNN e regressão linear diretamente, pois são coisas muito diferentes; no entanto, acho que o ponto principal aqui é a diferença entre "modelagem" f ( x )f( X ) " e "ter suposições sobre ".f( X )
Ao fazer regressão linear, modelamos especificamente , geralmente algo entre as linhas def ( x ) = w x + ϵ ϵf( X )f( x ) = w x + ϵ que é um termo de ruído gaussiano. Você pode descobrir que o modelo de probabilidade máxima é equivalente ao modelo de erro de soma dos quadrados mínimos.ϵ
O KNN, por outro lado, como sugere o seu segundo ponto, pressupõe que você possa aproximar essa função por uma constante local função - alguma medida de distância entre os ses, sem modelar especificamente toda a distribuição.x
Em outras palavras, a regressão linear geralmente terá uma boa idéia do valor de para algum invisível apenas do valor de , enquanto o kNN precisaria de outras informações (isto é, os vizinhos k) para fazer previsões sobre , porque o valor de , e apenas o próprio valor, não fornecerá nenhuma informação, pois não há modelo parax x f ( x ) x f ( x )f( X )xxf( X )xf( X ) .
EDIT: reiterando isso abaixo para reexprimir esse esclarecimento (ver comentários)
É claro que os métodos de regressão linear e vizinho mais próximo visam prever o valor de para um novo . Agora, existem duas abordagens. A regressão linear continua assumindo que os dados caem em uma linha reta (mais menos algum ruído) e, portanto, o valor de y é igual ao valor dex f ( x )y= f( X )xf( X ) vezes a inclinação da linha. Em outras palavras, a expressão linear modela os dados como uma linha reta.
Agora, os métodos vizinhos mais próximos não se importam se a aparência dos dados (não os modela), ou seja, eles não se importam se é uma linha, uma parábola, um círculo etc. Tudo o que supõe é que e será semelhante, se e são semelhantes. Observe que essa suposição é basicamente verdadeira para praticamente qualquer modelo, incluindo todos os que mencionei acima. No entanto, um método NN não pode dizer como o valor de está relacionado a (se é uma linha, parábola etc.), porque não possui modelo desse relacionamento, apenas assume que ele pode ser aproximado por olhando para pontos próximos.f ( x 2 ) x 1 x 2 f ( x ) xf( x1 1)f( x2)x1 1x2f( X )x
fonte
O termo baseado em modelo é sinônimo de "baseado em distribuição" ao discutir métodos de cluster. A regressão linear faz suposições distributivas (de que os erros são gaussianos). O KNN não faz nenhuma suposição distributiva. Essa é a distinção.
fonte