Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas

Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK".

Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última camada. Assim, eu posso usar duas redes neurais modelo para prever "Sim" / "Não" nas duas categorias, mas se tivermos mais categorias, será muito caro. Então, temos algum modelo de aprendizado profundo ou de aprendizado de máquina para prever duas ou mais categorias ao mesmo tempo?

"Editar": com 3 rótulos por abordagem tradicional, ele será codificado por [1,0,0], mas no meu caso, será codificado por [1,1,0] ou [1,1,1]

Exemplo: se tivermos três marcadores, e uma frase pode ser adequada a todos esses marcadores. Portanto, se a saída da função softmax for [0,45, 0,35, 0,2], devemos classificá-la em 3 rótulos ou 2 rótulos, ou pode ser um? o principal problema quando o fazemos é: qual é o limite ideal para classificar em 1, 2 ou 3 rótulos?

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty voxter
fonte

Temos que usar a função sigmóide em vez da função softmax. Ele pode atribuir várias classes aos pontos de dados.

NITISH MAHAJAN 28/03

Respostas:

Você pode obter essa classificação de vários rótulos substituindo o softmax por uma ativação sigmóide e usando a entropia cruzada binária em vez da entropia cruzada categórica como função de perda. Então você só precisa de uma rede com tantas unidades de saída / neurônios quanto etiquetas.

Você precisa alterar a perda para entropia cruzada binária, pois a entropia cruzada categórica só obtém a perda da previsão para os destinos positivos. Para entender isso, observe a fórmula da perda de entropia cruzada categórica para um exemplo (os índices de classe são ): $i$ $j$

$L_i = - \sum_j{t_{i,j} \log(p_{i,j})}$

Na configuração normal de multiclasse, você usa um softmax, para que a previsão para a classe correta seja diretamente dependente das previsões para as outras classes. Se você substituir o softmax pelo sigmoid, isso não será mais verdade; portanto, exemplos negativos (onde ) não serão mais usados no treinamento! É por isso que você precisa mudar para a entropia cruzada binária, que usa exemplos positivos e negativos: $t_{i,j}=0$ $L_i=-\sum_j{t_{i,j} \log(p_{i,j})} -\sum_j{(1 - t_{i,j}) \log(1 - p_{i,j})}$

robintibor
fonte

por que precisamos usar a entropia cruzada binária em vez da entropia cruzada categórica como a função de perda? Você pode explicar mais ? Agora eu estou usando @robintibor ativação sigmóide

voxter

Eu adicionei uma explicação à resposta @voxter

robintibor

Brilhante! Obrigado. Além disso, você pode fornecer alguns documentos ou tutoriais que explicam mais matemática sobre funções no deeplearning, como você me explicou?

voxter

Ótimo. Estes cursos podem ajudar: neuralnetworksanddeeplearning.com deeplearning.net/tutorial deeplearning.stanford.edu/tutorial

robintibor