Escolhendo o K ideal para KNN

15

Realizei um CV 5 vezes para selecionar o K ideal para o KNN. E parece que quanto maior o K fica, menor o erro ...

insira a descrição da imagem aqui

Desculpe por não ter uma lenda, mas as cores diferentes representam tentativas diferentes. Existem 5 no total e parece que há pouca variação entre eles. O erro sempre parece diminuir quando K fica maior. Então, como posso escolher o melhor K? K = 3 seria uma boa escolha aqui, porque o gráfico se desnivela após K = 3?

Adrian
fonte
O que você fará com os clusters depois de encontrá-los? Por fim, é o que você fará com os clusters produzidos pelo algoritmo de clustering que ajudará a determinar se vale a pena usar mais clusters para obter um pequeno erro.
precisa
Eu quero alto poder preditivo. Neste caso ... devo ir com K = 20? Uma vez que possui o menor erro. No entanto, na verdade, plotei os erros de K até 100. E 100 tem o menor erro de todos ... então suspeito que o erro diminuirá à medida que K aumentar. Mas não sei o que é um bom ponto de corte.
Adrian

Respostas:

12

kkkkk do que um menor, se a diferença nos erros de CV for insignificante.

Se o erro CV não começar a aumentar novamente, isso provavelmente significa que os atributos não são informativos (pelo menos para essa métrica de distância) e fornecer saídas constantes é o melhor que pode fazer.

Dikran Marsupial
fonte
2

K=17K=3

Solha
fonte
0

Existe algum significado físico ou natural por trás do número de clusters? Se não estou errado, é natural que, à medida que K aumenta, o erro diminua - como um super ajuste. Em vez de pescar o K ideal, é provavelmente melhor escolher K com base no conhecimento do domínio ou em alguma intuição?

tohweizhong
fonte
Penso que esta resposta seria mais apropriada para o agrupamento k-means do que para a classificação ou regressão k-nn.
Dikran Marsupial
Se k for muito grande, você o está ajustando de forma inadequada, o erro aumentará novamente.
James