Pelo que entendi, só podemos criar uma função de regressão que esteja dentro do intervalo dos dados de treinamento.
Por exemplo (apenas um dos painéis é necessário):
Como eu previa o futuro usando um regressor KNN? Novamente, parece aproximar apenas uma função que fica dentro do intervalo dos dados de treinamento.
Minha pergunta: quais são as vantagens de usar um regressor KNN? Entendo que é uma ferramenta muito poderosa para classificação, mas parece que o desempenho seria ruim em um cenário de regressão.
regression
machine-learning
k-nearest-neighbour
- Reinstate Monica
fonte
fonte
Respostas:
Métodos locais como o K-NN fazem sentido em algumas situações.
Um exemplo que fiz no trabalho da escola tinha a ver com a previsão da resistência à compressão de várias misturas de ingredientes de cimento. Todos esses ingredientes eram relativamente não voláteis em relação à resposta ou entre si, e a KNN fez previsões confiáveis. Em outras palavras, nenhuma das variáveis independentes apresentou variação desproporcionalmente grande para conferir ao modelo individualmente ou possivelmente por interação mútua.
Tome isso com um pouco de sal, porque não conheço uma técnica de investigação de dados que mostre isso conclusivamente, mas intuitivamente parece razoável que, se seus recursos tiverem um grau proporcional de variações, não sei qual proporção, você pode ter uma Candidato KNN. Eu certamente gostaria de saber se existem alguns estudos e técnicas resultantes desenvolvidas para esse efeito.
Se você pensar sobre isso de uma perspectiva de domínio generalizada, há uma ampla classe de aplicativos em que 'receitas' semelhantes produzem resultados semelhantes. Isso certamente parecia descrever a situação de previsão dos resultados da mistura de cimento. Eu diria que se você tivesse dados que se comportassem de acordo com esta descrição e, além disso, sua medida de distância também fosse natural para o domínio em questão e, por último, que você tivesse dados suficientes, eu imaginaria que você deveria obter resultados úteis do KNN ou outro método local .
Você também está obtendo o benefício de um viés extremamente baixo ao usar métodos locais. Às vezes, os modelos aditivos generalizados (GAM) equilibram o viés e a variação ajustando cada variável individual usando o KNN, de modo que:
Eu não descartaria o KNN tão rapidamente. Tem o seu lugar.
fonte
Não gosto de dizer isso, mas na verdade a resposta curta é que "prever o futuro" não é realmente possível, nem com um conhecimento nem com qualquer outro classificador ou regressor atualmente existente.
Claro que você pode extrapolar a linha de uma regressão linear ou o hiperplano de um SVM, mas no final você não sabe qual será o futuro, pelo que sabemos, a linha pode ser apenas uma pequena parte de uma realidade curvilínea. Isso se torna aparente quando você olha métodos bayesianos, como processos gaussianos, por exemplo, notará uma grande incerteza assim que sair do "domínio de entrada conhecido".
É claro que você pode tentar generalizar do que aconteceu hoje para o que provavelmente acontecerá amanhã, o que pode ser feito facilmente com um regressor knn (por exemplo, os números de clientes do ano passado durante o Natal podem dar uma boa dica sobre os números deste ano). Certamente, outros métodos podem incorporar tendências e assim por diante, mas no final você pode ver como isso funciona quando se trata do mercado de ações ou de previsões meteorológicas de longo prazo.
fonte
Primeiro, um exemplo para "Como eu previa o futuro usando um regressor KNN?".
Indiquew e e kt≡ s u nt. . s u nt - 6 t o m o r r o w ( w e e kt) ) ≡ s u nt + 1
Ajustar os pesos, por exemplo, ver -inverso distância ponderadas-idw-interpolação-com-pitão ,
e a distância métrica para "vizinho mais próximo" em 7d.
"Quais são as vantagens de usar um regressor KNN?"
Para os bons comentários de outras pessoas, eu adicionaria fácil codificar e entender, além de escalar para big data.
Desvantagens: sensível a dados e ajustes, pouco entendimento .
Portanto, sua primeira linha "só podemos construir uma função de regressão que se encontra dentro do intervalo dos dados de treinamento" parece ser sobre a palavra confusa "regressão".)
fonte
Em Introdução à aprendizagem estatística , seção 3.5:
Mas existem restrições (não do livro, exatamente o que eu concluí):
fonte