Estou tentando entender os métodos de agrupamento.
O que eu acho que entendi:
No aprendizado supervisionado, os dados das categorias / etiquetas aos quais é atribuído são conhecidos antes do cálculo. Portanto, os rótulos, classes ou categorias estão sendo usados para "aprender" os parâmetros realmente significativos para esses clusters.
No aprendizado não supervisionado, os conjuntos de dados são atribuídos a segmentos, sem que os clusters sejam conhecidos.
Isso significa que, se eu nem souber quais parâmetros são cruciais para uma segmentação, prefiro o aprendizado supervisionado?
Respostas:
A diferença é que, no aprendizado supervisionado, as "categorias", "classes" ou "rótulos" são conhecidas. No aprendizado não supervisionado, eles não são, e o processo de aprendizado tenta encontrar "categorias" apropriadas. Nos dois tipos de aprendizado, todos os parâmetros são considerados para determinar quais são os mais apropriados para executar a classificação.
Se você escolheu supervisionado ou não supervisionado, deve se basear em saber ou não quais são as "categorias" dos seus dados. Se você souber, use aprendizado supervisionado. Se você não souber, use sem supervisão.
Como você possui um grande número de parâmetros e não sabe quais são relevantes, poderá usar algo como a análise de componentes principais para ajudar a determinar os relevantes.
fonte
Observe que existem mais de 2 graus de supervisão. Por exemplo, consulte as páginas 24-25 (6-7) da tese de doutorado de Christian Biemann, Processamento de linguagem natural sem supervisão e sem conhecimento no Paradigma de Descoberta de Estrutura, 2007.
A tese identifica quatro graus: supervisionado, semi-supervisionado, fracamente supervisionado e não supervisionado, e explica as diferenças, em um contexto de processamento de linguagem natural. Aqui estão as definições relevantes:
fonte
No aprendizado supervisionado, as classes são conhecidas antecipadamente e também seus tipos, por exemplo, duas classes de bons e maus clientes. Quando um novo objeto (cliente) é baseado em seus atributos, o cliente pode ser atribuído a uma classe de clientes ruim ou boa.
No aprendizado não supervisionado, os grupos / classes ainda não são conhecidos, temos objetos (clientes); portanto, agrupe os clientes com hábitos de compra semelhantes; portanto, grupos diferentes são formados pelos clientes, ou seja, ainda não são conhecidos com base em hábitos de compra semelhantes.
fonte
No aprendizado supervisionado, a saída (variável dependente) depende da variável de entrada (variável independente). Em algum conjunto de supervisões fornecidas, o respondente tenta calcular o objetivo desejado.
No aprendizado não supervisionado, não há supervisão; portanto, o sistema tenta se adaptar à situação e aprende manualmente com base em alguma medida.
por exemplo: Professor em sala de aula - supervisão - aprendizado supervisionado Um auto-estudo eletivo na aula - Sem supervisão Aprendizado Não Supervisionado
fonte