Até recentemente, eu pensava que "rotular" e "classificação" são sinônimos. Mas quando iniciei outra pergunta sobre terminologia em visão computacional , pensei: existe uma diferença entre "rotular" e "classificação"?
Eu pensei que a "classe" é o conceito que você deseja detectar e "rotular" é o que você atribui aos dados. Portanto, "classe" é um conceito que leva aos dados e "rótulo" é apenas o nome. Portanto, "rotular" seria o mesmo que "classificação", pois ambos desejam fazer uma declaração sobre a classe subjacente que leva aos dados.
Artigos
Uma pesquisa rápida via Google Scholar revelou que alguns artigos usam os dois termos do título:
- Markus Eich, Malgorzata Dabrowska e Frank Kirchner: "Rotulagem semântica: classificação de entidades 3D com base em descritores de recursos espaciais"
- Chunlin Li, Dmitry B. Goldgof e Lawrence 0. Hall: "Classificação baseada no conhecimento e rotulagem de tecidos de imagens de RM do cérebro humano"
- Ray Blanchard: "A classificação e rotulagem de disforias não-homossexuais de gênero" - outra área de pesquisa, mas provavelmente é a mesma diferença entre as duas palavras?
Então, acho que há uma diferença entre "rotulagem" e "classificação". Qual é a diferença?
N-Gram do Google
classificação parece ser um termo muito interno.
fonte
Respostas:
Discordo totalmente de @Derek Janni. Tenha cuidado com a notação, no entanto, você não deve se perder na terminologia. Os documentos que você mencionou usaram o termo "rotulagem" literalmente, mas na comunidade Machine Learning / Data Mining, a rotulagem é o processo de preparação de dados para o aprendizado supervisionado (classificação)! Não tem nada a ver com a tarefa ML!
Esses documentos usaram o termo para mostrar que, após o aprendizado supervisionado, eles podem reconhecer rótulos diferentes de objetos diferentes, de modo que usaram o termo rotulagem, mas você provavelmente não consegue encontrar em nenhuma literatura que eles usem esses dois termos como sinônimos.
fonte
Da maneira que eu vejo: 'Classificação' (no contexto de aprendizado de máquina) é um tipo de problema no qual você atribui um 'rótulo' a um objeto. Formalmente, 'Classificação' é um tipo de problema, enquanto rotular é uma função de um objeto para um conjunto de rótulos (talvez infinito).
Da mesma forma, a regressão é um tipo de problema em que você, novamente, atribui um rótulo a um objeto somente desta vez, o rótulo é um número real.
Tanto na classificação quanto na regressão, você está tentando encontrar a 'melhor' função de rotulagem em relação a alguma função de métrica / perda.
fonte
Depois de ler muito mais artigos e conversar com muitas pessoas sobre tópicos de aprendizado de máquina, é assim que eu definiria as palavras:
Uma classe como um conceito abstrato que existe. Cada classe tem propriedades e pode ter muitos rótulos diferentes. Por exemplo, o gato da classe possui as propriedades "pés" (com o valor 4), a propriedade "Gênero" com o valor "Felis". Há muitas maneiras pelas quais os membros da classe podem se parecer. Também muitos rótulos: gato, Katze, Felis silvestris, 🐱, 🐈.
Um rótulo é apenas um adesivo que você coloca no conceito. Um nome. Precisamos de uma palavra para poder falar sobre o conceito.
Uso rotulagem para o processo manual de definir quais partes do conjunto de dados pertencem a qual classe. E uso classificação para o processo do classificador automático que decide qual parte dos dados pertence a qual classe. Normalmente, a rotulagem é feita por um ser humano e prossegue a classificação que é feita pela máquina.
fonte
Resposta curta:
Não, não há diferença entre rotulagem e classificação.
Classe - um conjunto ou categoria de coisas que possuem alguma propriedade ou atributo em comum e diferenciadas de outras por tipo, tipo ou qualidade. Veja 'categoria'.
Rótulo - palavra ou frase indicando que o que se segue pertence a uma categoria ou classe específica.
Classificar algo é rotulá-lo, eles são necessariamente a mesma coisa. O termo rotulagem provavelmente evoluiu porque "label" permite que você evite dizer "classe", que tem outras conotações em Ciência da Computação.
O rótulo é muito mais simples e, em todos os casos, a classificação é apenas o ato de colocar rótulos nos objetos (ou aprender a fazê-lo corretamente).
A discrepância que você vê no uso de rotulagem / classificação vem do simples fato de um título como:
"Classificação semântica: classificação de entidades 3D com base em descritores de recursos espaciais" ou "Classificação baseada no conhecimento e classificação de tecidos de imagens de RM do cérebro humano"
Parece realmente estranho.
Como a maioria dos títulos de artigos acadêmicos, essas são apenas descrições excessivamente complexas do que está no artigo e explicam exatamente o que está acontecendo sem parecer redundante.
TL; DR - Não se preocupe com a terminologia!
fonte
Os rótulos surgem em conjunto com a classificação quando o objeto não pertence a uma única classe, mas a um conjunto mais amplo, daí o termo "aprendizado de múltiplas etiquetas" ou "classificação de múltiplas etiquetas". Como eles se referem a classes discretas, eles podem ser usados como sinônimos, mas eu recomendaria o uso da terminologia tradicional ( classificação quando uma única classe deve ser atribuída) para evitar confusão.
fonte