Eu sei que o k-means não é supervisionado e é usado para agrupar etc, e que o k-NN é supervisionado. Mas eu queria saber diferenças concretas entre os
Classificadores k-vizinhos mais próximos Esses classificadores são baseados em memória e não requerem modelo para serem adequados. Dado um ponto de consulta x0, encontramos os k pontos de treinamento x (r), r = 1, ..., k mais próximos da distância de x0 e, em seguida, classificamos com voto majoritário entre os k vizinhos.
Eu sei que o k-means não é supervisionado e é usado para agrupar etc, e que o k-NN é supervisionado. Mas eu queria saber diferenças concretas entre os
Quero gerar o gráfico descrito no livro ElemStatLearn "Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão. Segunda edição" de Trevor Hastie e Robert Tibshirani e Jerome Friedman. O enredo é: Gostaria de saber como posso produzir esse gráfico exato R,...
Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...
Pelo que entendi, só podemos criar uma função de regressão que esteja dentro do intervalo dos dados de treinamento. Por exemplo (apenas um dos painéis é necessário): Como eu previa o futuro usando um regressor KNN? Novamente, parece aproximar apenas uma função que fica dentro do intervalo dos...
Sou um pouco novo em datamining / machine learning / etc. e lemos algumas maneiras de combinar vários modelos e execuções do mesmo modelo para melhorar as previsões. Minha impressão ao ler alguns artigos (que geralmente são interessantes e ótimos em teoria e letras gregas, mas com pouco código e...
Em 1999, Beyer et al. perguntou: Quando o "vizinho mais próximo" é significativo? Existem maneiras melhores de analisar e visualizar o efeito da planicidade da distância na pesquisa de NN desde 1999? O conjunto de dados [dado] fornece respostas significativas para o problema 1-NN? O problema...
Qual é a complexidade de tempo do algoritmo k -NN com abordagem de pesquisa ingênua (sem árvore kd ou similar)? Estou interessado em sua complexidade de tempo, considerando também o hiperparâmetro k . Eu encontrei respostas contraditórias: O (nd + kn), onde n é a cardinalidade do conjunto de...
Parece que o KNN é um algoritmo de aprendizado discriminativo, mas não consigo encontrar fontes online que confirmem isso. O KNN é um algoritmo de aprendizado
Os lugares que eu tenho lido sobre a maldição da dimensionalidade explicam isso em conjunto com o kNN principalmente, e com os modelos lineares em geral. Eu vejo regularmente os principais executivos do Kaggle usando milhares de recursos no conjunto de dados que dificilmente tem 100 mil pontos de...
Realizei um CV 5 vezes para selecionar o K ideal para o KNN. E parece que quanto maior o K fica, menor o erro ... Desculpe por não ter uma lenda, mas as cores diferentes representam tentativas diferentes. Existem 5 no total e parece que há pouca variação entre eles. O erro sempre parece diminuir...
Alguém poderia me explicar por que você precisa normalizar os dados ao usar o K vizinhos mais próximos. Eu tentei procurar isso, mas ainda não consigo entender. Encontrei o seguinte link: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Mas nesta explicação,...
Estou procurando um pacote de imputação KNN. Eu estive analisando o pacote de imputação ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), mas por algum motivo a função de imputação do KNN (mesmo quando segue o exemplo da descrição) parece apenas imputar valores zero (conforme...
Estou programando um algoritmo kNN e gostaria de saber o seguinte: Tie-breaks: O que acontece se não houver um vencedor claro na votação majoritária? Por exemplo, todos os k vizinhos mais próximos são de classes diferentes, ou para k = 4 existem 2 vizinhos da classe A e 2 vizinhos da classe B? O...
Entendo o raciocínio por trás da normalização de colunas, pois faz com que os recursos sejam ponderados igualmente, mesmo que não sejam medidos na mesma escala - no entanto, geralmente na literatura do vizinho mais próximo, colunas e linhas são normalizadas. Qual é a normalização de linha / por que...
Eu sou novo no kernels e encontrei um problema ao tentar kernelizar o kNN. Preliminares Estou usando um kernel polinomial: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d O kNN euclidiano típico usa a seguinte métrica de...
Alguém pode relatar sua experiência com um estimador de densidade de kernel adaptável? (Existem muitos sinônimos: adaptável | variável | largura variável, KDE | histograma | interpolador ...) A estimativa da densidade variável do kernel diz "variamos a largura do kernel em diferentes regiões do...
De acordo com algum artigo que estou lendo, a distância de Jeffries e Matusita é comumente usada. Mas não consegui encontrar muita informação, exceto a fórmula abaixo JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} É semelhante à distância...
Em Elements of Statistical Learning , um problema é introduzido para destacar problemas com k-nn em espaços de alta dimensão. Existem pontos de dados que são distribuídos uniformemente em uma esfera unitária dimensional.NNNppp A distância média da origem ao ponto de dados mais próximo é dada pela...
Estou lendo o livro de Kevin Murphy: Machine Learning - uma perspectiva probabilística. No primeiro capítulo, o autor está explicando a maldição da dimensionalidade e há uma parte que eu não entendo. Como exemplo, o autor declara: Considere que as entradas são distribuídas uniformemente ao longo...
Pelo que entendi, o k-NN é um algoritmo de aprendizado lento e não precisa de uma fase de treinamento. Então, por que precisamos usar .fit()com o sklearn e o que acontece quando o