A segunda pergunta é que eu encontrei em uma discussão em algum lugar na Web falando sobre "cluster supervisionado", tanto quanto eu sei, cluster não é supervisionado, então qual é exatamente o significado por trás de "cluster supervisionado"? Qual a diferença em relação à "classificação"?
Existem muitos links falando sobre isso:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
etc ...
Respostas:
Meu entendimento ingênuo é que a classificação é realizada onde você tem um conjunto especificado de classes e deseja classificar uma nova coisa / conjunto de dados em uma dessas classes especificadas.
Como alternativa, o cluster não tem nada para começar e você usa todos os dados (incluindo o novo) para separar em clusters.
Ambos usam métricas de distância para decidir como agrupar / classificar. A diferença é que a classificação se baseia em um conjunto de classes definido anteriormente, enquanto o cluster decide os clusters com base em todos os dados.
Novamente, meu ingênuo entendimento é que o cluster supervisionado ainda agrupa com base em dados inteiros e, portanto, seria agrupar em vez de classificar.
Na realidade, tenho certeza de que a teoria por trás do agrupamento e da classificação é entrelaçada.
fonte
Acho que não sei mais do que você, mas os links que você postou sugerem respostas. Tomarei http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf como exemplo. Basicamente, eles afirmam: 1) o agrupamento depende de uma distância. 2) o uso bem-sucedido de k-means requer uma distância cuidadosamente escolhida. 3) Dados os dados de treinamento na forma de conjuntos de itens com o particionamento desejado, fornecemos um método SVM estrutural que aprende uma medida de distância para que o k-mean produz os agrupamentos desejados.Nesse caso, há um estágio supervisionado para o agrupamento, com dados de treinamento e aprendizado. O objetivo desse estágio é aprender uma função de distância para que a aplicação do agrupamento de médias k com essa distância seja esperançosamente ideal, dependendo de quão bem os dados de treinamento se assemelhem ao domínio do aplicativo. Todas as advertências usuais apropriadas para aprendizado de máquina e cluster ainda se aplicam.
Citações adicionais do artigo: O clustering supervisionado é a tarefa de adaptar automaticamente um algoritmo de clustering com a ajuda de um conjunto de treinamento que consiste em conjuntos de itens e particionamentos completos desses conjuntos de itens. . Parece uma definição razoável.
fonte
Algumas definições: O
armazenamento em cluster supervisionado é aplicado em exemplos classificados com o objetivo de identificar clusters que possuem alta densidade de probabilidade para uma única classe.
O clustering não supervisionado é uma estrutura de aprendizado que utiliza funções específicas de um objeto, por exemplo, uma função que minimiza as distâncias dentro de um cluster para mantê-lo rígido.
O armazenamento em cluster semi-supervisionado é aprimorar um algoritmo de armazenamento em cluster usando informações secundárias no processo de armazenamento em cluster.
Avanços nas redes neurais - ISNN 2010
Sem usar muito jargão, já que sou novato nesta área, a maneira como entendo que o clustering supervisionado é mais ou menos assim:
No cluster supervisionado, você começa de cima para baixocom algumas classes predefinidas e, em seguida, usando uma abordagem de baixo para cima , você descobre quais objetos se encaixam melhor em suas classes.
Por exemplo, você realizou um estudo sobre o tipo favorito de laranjas em uma população.
Dos muitos tipos de laranjas, você descobriu que um 'tipo' específico de laranjas é o preferido.
No entanto, esse tipo de laranja é muito delicado e lábil a infecções, mudanças climáticas e outros agentes ambientais.
Então você quer cruzar com outras espécies que são muito resistentes a esses insultos.
Então você vai ao laboratório e encontrou alguns genes responsáveis pelo sabor suculento e doce de um tipo e pelas capacidades resistentes do outro tipo.
Você realiza várias experiências e termina com, digamos, cem subtipos diferentes de laranjas.
Agora você está interessado apenas nos subtipos que se encaixam perfeitamente nas propriedades descritas.
Você não deseja realizar o mesmo estudo em sua população novamente ...
Você conhece as propriedades que procura na sua cor laranja perfeita.
Portanto, você executa sua análise de cluster e seleciona as que melhor atendem às suas expectativas.
fonte