Existe uma maneira de usar a regressão logística para classificar dados com várias etiquetas? Por rótulos múltiplos, quero dizer dados que podem pertencer a várias categorias simultaneamente.
Eu gostaria de usar essa abordagem para classificar alguns dados biológicos.
classification
logistic
multilabel
user721975
fonte
fonte
Respostas:
Princípio, sim - não tenho certeza de que essas técnicas ainda sejam chamadas de regressão logística.
Na verdade, sua pergunta pode se referir a duas extensões independentes dos classificadores comuns:
Você pode exigir que a soma de todas as associações de cada caso seja uma ("mundo fechado" = o caso usual)
ou descartar essa restrição (às vezes chamada de "classificadores de uma classe").
Isso poderia ser treinado por vários modelos independentes de LR, embora uma classe os problemas costumam ser mal colocados (essa classe vs. todos os tipos de exceções que podem estar em todas as direções) e, em seguida, o LR não é particularmente adequado.
associações parciais de classe: cada caso pertence à associação de cada classe, semelhante às associações na análise de cluster nebuloso: Suponha que existam 3 classes A, B, C. Em seguida, uma amostra pode ser rotulado como pertencente à classe B. Isso também pode ser escrito como vetor de associação . Nesta notação, as associações parciais seriam, por exemplo, etc.∈ [ 0 , 1 ]nc l um s s e s [ A = 0 , B = 1 , C= 0 ] [ A = 0,05 , B = 0,95 , C= 0 ]
[ A = 0,05 , B = 0,95 , C = 0 ]
diferentes interpretações podem ser aplicadas, dependendo do problema (associações difusas ou probabilidades):
para previsão, por exemplo, as probabilidades posteriores não são apenas possíveis, mas na verdade bastante comuns
e até validação
A idéia é que, para casos limítrofes, pode não ser possível atribuí-los sem ambiguidade a uma classe.
Em R, por exemplo,
nnet:::multinom
que faz parte do MASS, esses dados são aceitos para treinamento. Uma RNA com sigmóide logístico e sem nenhuma camada oculta é usada nos bastidores.Eu desenvolvi o pacote
softclassval
para a parte de validação.Classificadores de uma classe são bem explicados em Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009.
Apresentamos uma discussão mais detalhada das associações parciais neste artigo: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert e Reiner Salzer: classificação espectroscópica Raman de tecidos de astrocitoma: usando informações de referência suaves. Anal Bioanal Chem, 2011, vol. 400 (9), pp. 2801-2816
fonte
Uma maneira simples de fazer a classificação de vários rótulos com um classificador de várias classes (como a regressão logística multinomial) é atribuir cada atribuição possível de rótulos à sua própria classe. Por exemplo, se você estivesse fazendo uma classificação binária de várias etiquetas e tivesse três etiquetas, poderá atribuir
e assim por diante, resultando em classes.23=8
O problema mais óbvio com essa abordagem é que você pode acabar com um grande número de classes, mesmo com um número relativamente pequeno de rótulos (se você tiver rótulos, precisará de classes). Você também não será capaz de prever as atribuições de etiquetas que não estão presentes no seu conjunto de dados e fará um uso bastante ruim dos dados, mas se você tiver muitos dados e uma boa cobertura das possíveis atribuições de etiquetas , essas coisas podem não importar.2 nn 2n
Indo além disso e do que foi sugerido por outros, é provável que você queira examinar algoritmos de previsão estruturados, como campos aleatórios condicionais.
fonte
Esse problema também está relacionado ao aprendizado sensível aos custos, em que a previsão de um rótulo para uma amostra pode ter um custo. Para amostras com vários rótulos, os custos para esses rótulos são baixos, enquanto o custo para outros rótulos é maior.
Você pode dar uma olhada neste tutorial, que também pode encontrar os slides correspondentes aqui .
fonte